西西河

主题:算算高铁的账 -- szbd

共:💬816 🌺1744 🌵2
分页树展主题 · 全看首页 上页
/ 55
下页 末页
                        • 家园 【文摘】 统计数字从小小账本开始

                          对国内国民经济统计,大家都有点困惑,有点不信,但是这些统计也是有科学方法作为基础的,虽然有的方法可能比如抽样框啥的有点过时了,没有及时跟新。但是总体上来说,统计数据的精度和准度还是越来越好的。

                          外链出处

                          国家统计局局长朱之鑫:透过数字看中国经济

                          曲向东:我这有一个居民的账本,非常有意思。我们也看了一下,里面记得非常细,比如说买了一个苍蝇拍,2元钱,他要记下来,收入这儿呢,你看,别人送他一桶花生油,他也要记下来,值多少钱,他要查出来,然后记下来。

                          朱之鑫:算非现金收入。

                          曲向东:实物性收入。

                          徐先生是北京一家事业单位的工作人员,他每天很重要的一件事就是记账。现在的徐先生已经养成了一个习惯,从超市买了东西后,都要仔细地看一下购物小票,名称是否相符。回到家里,他要把所购买的东西、数量、支出的钱数一一记在账本上。

                          徐培新告诉我们,一斤的豆角也得记上,那就是今天的蔬菜一共花了3元钱,南瓜2元,豆角1元。买什么东西都得记上,哪怕5角钱、1角钱,都得记上。

                          这个账本是国家统计局城市社会经济调查总队发给徐先生的城市居民家庭生活情况调查表。从账本上,可以看到食物在家庭消费中比例很低,只占到34%。大部分的支出花费在教育、旅游、服装、通讯费用等方面。在食物的开支中,肉食、蛋禽、牛奶等食品占了8成以上。

                          徐先生说,从家庭开支方面能够看出,其中的一些变化。譬如说现在通讯费用增加了,原来就一部电话,现在可能得两部电话,因为上网了。现在还有无线通讯,他跟他爱人都有手机。

                          每个月统计局会给他25元的记账补助,而去年还是15元。像徐先生这样的抽样调查户,在北京市西城区有160户。每个月,城市调查员会来到徐先生家里,把记录的账本收上去。

                          北京市西城区统计局城调队副队长张凤琴介绍说,这些账本要按有关规定进行编码,要核算调查户的记录情况,进行纠错。录入到计算机中的调查数字,经过简单的核算之后,就会及时地传送到国家统计局。正是从全国几万个像徐先生这样的账本中,调查出了恩格尔系数、物价指数、消费水平、居民可支配收入等统计数据。

                          曲向东:我看徐先生跟您,朱局长,跟您有一个共同点,就是他要每天带一个小计算器,要不然这个账记不清楚。

                          朱之鑫:应该非常感谢徐先生对国家统计的支持,非常细致。

                          曲向东:那么这样一些数据,我们统计局拿来之后,我们会怎样去使用它呢?

                          朱之鑫:因为调查城市居民的收入,是我们城市调查的一项非常重要的任务。城市调查队里头,除了调查居民的收入,还要测算物价。还要汇总起来,来进行整个的经济情况的分析。

                          曲向东:也就是说像徐先生这样的这种家庭的生活情况调查,只是我们整个调查当中非常小的一个部分。

                          朱之鑫:对,它等于是一个抽样调查,你比如像城市的收入,我们现在已经在全国226个城市建立了城市调查队,那么在这里头,实际上在全国的范围里头,已经抽了4万户这样的。

                          曲向东:全国像徐先生这样的调查户一共有4万户。

                          朱之鑫:4万户。他们要每个月,按时地把所有的收入、支出、就业、财产情况来登记上来,是非常复杂的。

                          曲向东:那么像这样的调查户都是固定的吗?

                          朱之鑫:这样的户呢,是这样的,应该来说呢,就是说我们按照抽样调查的原则,有一个样本轮换的问题,有一个抽样户轮换的问题,大体上三年左右,其中要轮换一批,轮换三分之一。

                          曲向东:怎样轮换?

                          朱之鑫:比如原来的三分之一,我们要退出来,再补充新的三分之一进去。

                          曲向东:补充进来的这完全靠抽样吗?

                          朱之鑫:对,抽样的话,就是按照整个城市的分布情况,再按照居民的收入情况,来个等距的抽样方法得出的,这样为了确保样本和抽样户的完整性和准确性。

                          不要小看统计部门“挤水分”的能力

                          曲向东:我们看到,新华社有一篇文章说,湖北省通过改革统计方式呢,国内生产总值缩水了800亿,其中有一个县的GDP(国内生产总值),比上年减少了46%以上。 那么作为国家统计局,包括地方的统计部门,它怎么样去采取一些办法,去挤掉地方政府可能存在的一些水分呢?

                          朱之鑫:这个水分呢,有一些是长期积累的。不要小看我们统计方面对挤水分的这种能力,你比如说,人口普查的过程中,我们曾经有500万个调查小区,调查完了之后,我们又抽出来,每八千个抽一个,等于又抽了 600多个小区,完了之后进行复查,复查的结果,如果符合的,那就认你的,如果不符合的,就要进行必要的调整。

                          曲向东:就是您说的挤水分?

                          朱之鑫:对,挤水分。

                          曲向东:那么经过这么多环节之后,您能不能很有信心地拍着胸脯说,我们的数字一点儿问题都没有。

                          朱之鑫:我不敢拍胸脯说一点儿问题都没有,当然我可以拍胸脯讲,对于中国的统计数字,或者是一些宏观的数字,我可以讲,基本上还是准确的。

                          • 家园 就这么抽样统计

                            当全国的数据,能准?首先这几万个人就都那么老实?第二这就能反映全国的情况?

                            要不你自己编个程序,按一个高斯函数随机生成几万个数,你看用这几万个数算高斯函数的参数,误差有多大。

                            • 家园 你的问题很好

                              抽样调查的误差来自两大块,非抽样误差和抽样误差。

                              抽样误差,用科学的抽样方法可以搞定。一般来讲,全国性的调查,抽样方法大多是多阶段分层抽样法,这样总体样本是随机的,各个子体样本也是随机的。比如,全国的样本是随机样本,北京的样本对北京来讲也是随机的。那么我们可以对全国的参数和北京的参数都进行估计。我想这个居民消费调查的抽样方法就是多阶段分层抽样法吧。

                              影响非抽样误差的一个因素是样本量。样本量由margin of error决定。比如,美国gallop每天进行的总统工作满意度调查的样本量是1000,margin of error是3%。假如现在obama的满意度是46%,那么我们有95%的信心说他的满意度在43%和49%。也就是说,假设我们随机调查1000个美国人,重复这种1000人的随机调查1000遍,950次的满意度结果会在43%和49%之间。在决定样本量的时候,一般先决定最大可容忍的margin of error,美国的全国性的政治调查,一般就是3%之类的,然后计算样本量,算下来也就是1000人左右。预测总统选举的每日调查,margin of error会小点,因为想更准确点,但每天的样本量也不超过3000。要知道美国总体有3亿多人。因此,我们也可以看出抽样调查的魅力了。这个居民消费调查的样本量是4万,您还觉得小吗?

                              非抽样误差,不能通过增加样本量减少。非抽样误差,主要来自于数据收集的过程中。比如问卷的题目的词语有引导性,比如题目不容易读懂,比如抽样实施的过程中不是随机的,有的人选中了,拒绝参与,比如你说的是否老实回答。是否老实回答的专业术语是response bias,这主要出现在题目和问题很敏感,涉及隐私或者犯法方面时。关于这个居民消费调查,会有涉及收入的问题,有的受访者也许会出于一些考虑,比如关于灰色收入的,会倾向于低报自己的收入,这个是难免的。关于支出,有的受访者会遗漏一些比较细小的支出。不过居民消费调查推算的结果,也要和消费零售的结果对比的,然后进行校正。具体国内统计局怎么控制这块的,我也不是很清楚。

                              最后,关于正态分布的模拟,结果如下,其中rnorm是R里面产生正态随机数的函数,括号里面第一个数是样本量,第二个数是正态分布的总体(真实)均值,第三个数是总体标准差。您觉得40000够吗?嗬嗬。

                              > mean(rnorm(10,0,1))

                              [1] -0.4604775

                              > sd(rnorm(10,0,1))

                              [1] 0.851649

                              > mean(rnorm(100,0,1))

                              [1] -0.02242468

                              > sd(rnorm(100,0,1))

                              [1] 0.9989014

                              > mean(rnorm(1000,0,1))

                              [1] -0.02508576

                              > sd(rnorm(1000,0,1))

                              [1] 1.007629

                              > mean(rnorm(10000,0,1))

                              [1] 1.872289e-05

                              > sd(rnorm(10000,0,1))

                              [1] 0.9901812

                              > mean(rnorm(40000,0,1))

                              [1] 0.001899528

                              > sd(rnorm(40000,0,1))

                              [1] 1.004849

                              • 家园 这例子不对劲阿

                                和现实生活脱节阿。也怪我开始没说清楚。咱们找恩格尔系数的分布,恩格尔系数的范围就是(0,1)阿。所以不能完全随机地产生数。而且sd=1的情况分布太锐了,也跟现实不一样。

                                • 家园 你说的是高斯分布

                                  高斯分布就是正态分布阿,我以为你就想随便作个模拟,看看多大样本量ok。

                                  0-1之间也可以产生的,比如0-1之间的均匀分布,或者均值为.40,标准差为.05的正态分布。如果用这些分布做模拟,结果是一摸一样的,样本量500,通常就很好了。

                        • 家园 不是这么简单的

                          我想,这个系数是根据每年随机抽样的家庭户的数据(包含各项消费项目)计算的。

                          全国的,可能是根据模型和计算出来的系数估算得。

                          具体,我也不是很清楚,以前学的东西都还给老师乐。

    • 家园 好像少算了投资来源吧?很多建设费用是铁路自己

      掏钱搞的吧?

    • 家园 对与高铁的优劣,小弟尚有一丝疑问(比如建造时间)

      LZ用极具说服力的数据把高铁的优势体现的淋漓尽致,但我少有一些疑问望楼主指教,如有吹毛求疵之嫌还请多多包涵:

      首先,楼主在用数据说明高铁的优势时,他的类比对象是飞机,普通铁路和公路运输。技术上的发展带来的好处是显而易见的,但现在有没有实施的必要。现在国家的很大一笔投入都投在了“铁公基”上来拉动经济的增长,而我有疑问在于,诚然运输的完善可以很大程度上的促进地区经济的发展,但在实体经济受到很大打击的时候没有没有具体数据表明现在的运能(除春运意外)缺口还很大,说白了就是有没有货让他去运,希望楼主能给一些这方面的数据。这就好比是你现在能多200块买到同频率的4核处理器,他对于双核的优势可以说是显而易见的,多线程性能的提升将大于价格上的提升,四核也是将来的趋势,但你现在有没有这样的需求,各方面的配套软件是不是跟得上让四核发挥效用,也许这200块钱投在其他地方你会有正的收益,将来再换四核也许也是不坏的选择。

      • 家园 问题是好问题

        也确实应该有规划。

        不过我想,这些都是项目论证的必要条件之一,只是我们局外人不知道罢了。 虽说高铁大干快上,但中国到底还没有到在没有需求的地方修铁路的地步,多年欠的债还没还上呢。只是这几年还的快些就是了。

        另外,基础设施要有一定的前瞻性,要留有一定的余地。要修好后,能支持以后10,20年的经济发展。

        要想富, 先修路嘛。就是这个“先”字。

        • 家园 同意,基础设施要有一定的前瞻性

          以前俺小家子气严重,总觉得有些东东太花钱,不必搞得那么好。不过后来现实教育了俺,一个项目俺图省钱俺低标准来,后来因为世界进步快,搞得不到2年成鸡肋,那个痛苦!!!

          当然,太超前还是不好的,现在俺一般做85-90分,如果60分是刚够的话。

        • 家园 谢谢您的肯定

          我也觉得以一个局外人的身份确实挺难

          要致富先修路现在也不怎么题了

          感觉这些年投在铁公基上的钱还是够的

          是不是过了有没有更优的选择我就不知道了

          我觉得倒是应该提提要致富先种树了呵呵

          毕竟环境个人认为还是要比经济重要一些

          实体经济有没有真的复苏我还是持观望态度的

          但还是相信祖国的远见吧

          • 家园 那是因为修得差不多了

            要致富先修路现在也不怎么题了

            连国家出钱搞的什么村村通都差不多了。修高速收路费很多人都想干,不用国家说了。国家现在是搞铁路

分页树展主题 · 全看首页 上页
/ 55
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河