西西河

主题:【原创】Liptor的原罪以及为什么说辛普森还是去演动画片比较好 -- ducati

共:💬6 🌺29 新:
全看分页树展 · 主题 跟帖
家园 【原创】一、为什么说辛普森悖论很扯淡

首先科普一下统计的常识,没有置信度的统计就是白搭。

还是拿总统选举的民意测验做例子。假设我们抽取1000人作为样本,样本10%投卤豆腐就着鸭梨(credit goes to 南寒),90%投麦克哈克比。这个结果说明什么问题?

“不说明什么问题,你的样本是在西弗吉尼亚选的。你敢来纽约选,哈克比小样的往死里扁你。”

这就是朴素的置信度的概念——样本不随机,置信度就比随机的小多了。没有提供置信度的统计,我们现在知道,就是瞎掰。

那么置信度是什么概念呢?再简化一下例子:假设我们1000人是随机抽取。结果还是样本10%投卤豆腐就着鸭梨,90%投麦克哈克比。那我们就问了,这1000人能在多大程度上代表全美国1.6亿人?(sample vs. population)某人说:有95%的概率,全国人民投豆腐的不会超过12%,也不会小于8%。这就是置信度。你去看专业的民意测验,这个误差值是一定要给的。

置信度怎么算的呢?我给一个最简单的模型。

假设全国人民投豆腐的人占p,投克比的人占(1-p)。选票这样设计:投豆腐写1,投克比写0。我们抽样N人投票的总和是Z。那么这个未知的p,就可以用Z/N来估计。我们有

E(Z/N) = E(Z) / N = [p * N + (1 - p) * 0] / N = p

(铁手咱公式的事咋招啊?)

Var(Z/N) = Var(Z) / N ^ 2 =

N * [(1 - p) ^ 2 * p + p ^ 2 * (1 - p)] / N ^ 2 = p * (1 - p) / N

所以这个估计值的标准差就是

sqrt[p*(1-p)/N]

95%的置信区间,假设样本足够大,服从高斯分布,就是正负1.96倍标准差。一千人卤豆腐的区间就是正负1.9%。我刚才那正负百分之二瞎写的还挺准。如果按照辛普森的说法,我们增加四个变量,比如收入加三围,结果会如何呢?如果每个变量都是二元的,收入高/低,胸大/小,腰粗/细,屁股肥/瘦,那么1000人就分成16组,简单讲,每组人数是原来的1/16。假设我们细分以后,粗腰平胸大屁股的低收入群体投卤豆腐的噌一家伙变成60%多数了。问题上去是上去了,可置信区间变成12.2%。60%+-12.2%这种数据有什么意义呢?上下能差出三分之一强。这幸亏是60%。要是10%都不够减的。这还是二元变量。如果按ABCD罩杯分得话,那这统计的结果就更没法用了。

有人说了,那是你样本少。我统计了一亿个粗腰平胸大屁股的低收入者,90%都投卤豆腐就着鸭梨!!那我得说一句:牛逼!可是这也并没有产生悖论啊。就算全世界的女博士后90%都喜欢卤豆腐,又怎样呢?跟全美国人只有10%喜欢卤豆腐也完全没有矛盾哈。

结论:辛普森悖论大部分来说,是扯淡。统计一般数据都不够用的。再细分,得出结果也没有意义。小部分来讲,也没有什么悖不悖的。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河