西西河

主题:算算高铁的账 -- szbd

共:💬816 🌺1744 🌵2
全看分页树展 · 主题 跟帖
家园 你的问题很好

抽样调查的误差来自两大块,非抽样误差和抽样误差。

抽样误差,用科学的抽样方法可以搞定。一般来讲,全国性的调查,抽样方法大多是多阶段分层抽样法,这样总体样本是随机的,各个子体样本也是随机的。比如,全国的样本是随机样本,北京的样本对北京来讲也是随机的。那么我们可以对全国的参数和北京的参数都进行估计。我想这个居民消费调查的抽样方法就是多阶段分层抽样法吧。

影响非抽样误差的一个因素是样本量。样本量由margin of error决定。比如,美国gallop每天进行的总统工作满意度调查的样本量是1000,margin of error是3%。假如现在obama的满意度是46%,那么我们有95%的信心说他的满意度在43%和49%。也就是说,假设我们随机调查1000个美国人,重复这种1000人的随机调查1000遍,950次的满意度结果会在43%和49%之间。在决定样本量的时候,一般先决定最大可容忍的margin of error,美国的全国性的政治调查,一般就是3%之类的,然后计算样本量,算下来也就是1000人左右。预测总统选举的每日调查,margin of error会小点,因为想更准确点,但每天的样本量也不超过3000。要知道美国总体有3亿多人。因此,我们也可以看出抽样调查的魅力了。这个居民消费调查的样本量是4万,您还觉得小吗?

非抽样误差,不能通过增加样本量减少。非抽样误差,主要来自于数据收集的过程中。比如问卷的题目的词语有引导性,比如题目不容易读懂,比如抽样实施的过程中不是随机的,有的人选中了,拒绝参与,比如你说的是否老实回答。是否老实回答的专业术语是response bias,这主要出现在题目和问题很敏感,涉及隐私或者犯法方面时。关于这个居民消费调查,会有涉及收入的问题,有的受访者也许会出于一些考虑,比如关于灰色收入的,会倾向于低报自己的收入,这个是难免的。关于支出,有的受访者会遗漏一些比较细小的支出。不过居民消费调查推算的结果,也要和消费零售的结果对比的,然后进行校正。具体国内统计局怎么控制这块的,我也不是很清楚。

最后,关于正态分布的模拟,结果如下,其中rnorm是R里面产生正态随机数的函数,括号里面第一个数是样本量,第二个数是正态分布的总体(真实)均值,第三个数是总体标准差。您觉得40000够吗?嗬嗬。

> mean(rnorm(10,0,1))

[1] -0.4604775

> sd(rnorm(10,0,1))

[1] 0.851649

> mean(rnorm(100,0,1))

[1] -0.02242468

> sd(rnorm(100,0,1))

[1] 0.9989014

> mean(rnorm(1000,0,1))

[1] -0.02508576

> sd(rnorm(1000,0,1))

[1] 1.007629

> mean(rnorm(10000,0,1))

[1] 1.872289e-05

> sd(rnorm(10000,0,1))

[1] 0.9901812

> mean(rnorm(40000,0,1))

[1] 0.001899528

> sd(rnorm(40000,0,1))

[1] 1.004849

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河