== 系统问题，暂停聊天功能。==
【征集】西西河的经济学，及清流措施，需要主动参与者，『稷下学宫』新认证方式，24年网站打算和努力目标

主题：【原创】Liptor的原罪以及为什么说辛普森还是去演动画片比较好 -- ducati

共:💬6 🌺29 新:

老大河待整

全看分页树展 · 主题跟帖

复【原创】Liptor的原罪以及为什么说辛普森还是去演动画片比较好

家园

【原创】一、为什么说辛普森悖论很扯淡

首先科普一下统计的常识，没有置信度的统计就是白搭。

还是拿总统选举的民意测验做例子。假设我们抽取1000人作为样本，样本10%投卤豆腐就着鸭梨(credit goes to 南寒)，90%投麦克哈克比。这个结果说明什么问题？

“不说明什么问题，你的样本是在西弗吉尼亚选的。你敢来纽约选，哈克比小样的往死里扁你。”

这就是朴素的置信度的概念——样本不随机，置信度就比随机的小多了。没有提供置信度的统计，我们现在知道，就是瞎掰。

那么置信度是什么概念呢？再简化一下例子：假设我们1000人是随机抽取。结果还是样本10%投卤豆腐就着鸭梨，90%投麦克哈克比。那我们就问了，这1000人能在多大程度上代表全美国1.6亿人？（sample vs. population）某人说：有95%的概率，全国人民投豆腐的不会超过12%，也不会小于8%。这就是置信度。你去看专业的民意测验，这个误差值是一定要给的。

置信度怎么算的呢？我给一个最简单的模型。

假设全国人民投豆腐的人占p，投克比的人占(1-p)。选票这样设计：投豆腐写1，投克比写0。我们抽样N人投票的总和是Z。那么这个未知的p，就可以用Z/N来估计。我们有

E(Z/N) = E(Z) / N = [p * N + (1 - p) * 0] / N = p

（铁手咱公式的事咋招啊？）

Var(Z/N) = Var(Z) / N ^ 2 =

N * [(1 - p) ^ 2 * p + p ^ 2 * (1 - p)] / N ^ 2 = p * (1 - p) / N

所以这个估计值的标准差就是

sqrt[p*(1-p)/N]

95%的置信区间，假设样本足够大，服从高斯分布，就是正负1.96倍标准差。一千人卤豆腐的区间就是正负1.9%。我刚才那正负百分之二瞎写的还挺准。如果按照辛普森的说法，我们增加四个变量，比如收入加三围，结果会如何呢？如果每个变量都是二元的，收入高/低，胸大/小，腰粗/细，屁股肥/瘦，那么1000人就分成16组，简单讲，每组人数是原来的1/16。假设我们细分以后，粗腰平胸大屁股的低收入群体投卤豆腐的噌一家伙变成60%多数了。问题上去是上去了，可置信区间变成12.2%。60%+-12.2%这种数据有什么意义呢？上下能差出三分之一强。这幸亏是60%。要是10%都不够减的。这还是二元变量。如果按ABCD罩杯分得话，那这统计的结果就更没法用了。

有人说了，那是你样本少。我统计了一亿个粗腰平胸大屁股的低收入者，90%都投卤豆腐就着鸭梨！！那我得说一句：牛逼！可是这也并没有产生悖论啊。就算全世界的女博士后90%都喜欢卤豆腐，又怎样呢？跟全美国人只有10%喜欢卤豆腐也完全没有矛盾哈。

结论：辛普森悖论大部分来说，是扯淡。统计一般数据都不够用的。再细分，得出结果也没有意义。小部分来讲，也没有什么悖不悖的。

全看分页树展 · 主题跟帖

相关回复上下关系6
- 🙂【原创】Liptor的原罪以及为什么说辛普森还是去演动画片比较好 13 ducati 字927 2008-02-05 21:08:15
  - 🙂降了那些胆固醇？胡子眉毛一把抓？ PBS 字27 2008-02-06 08:41:04
    🙂Liptor降坏胆固醇（LDL），升HDL，但死亡率shang升 ducati 字27 2008-02-06 09:41:03
  - 🙂【原创】一、为什么说辛普森悖论很扯淡
    🙂那就是说，辛普森悖论是直觉上的一种悖论 2 铁手字322 2008-02-21 01:29:31
    🙂恩，没看懂，数学不好，要仔细研究一下，新年好！坏坏哥字0 2008-02-06 03:53:14

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明