西西河

主题:专家利用本福特定律推断伊朗选举合法的概率为0.05% -- meokey

共:💬30 🌺34
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 专家利用本福特定律推断伊朗选举合法的概率为0.05%

    选举舞弊研究专家Walter Melban前不久发布了2009年伊朗总统选举结果的分析报告,认为虽然没有充足证据,但有明显迹象指示存在舞弊。6月20日的《华盛顿邮报》发表了另一篇统计分析报告,作者使用本福特定律统计具体的投票数目,分析结果是选举合法的概率为0.05%。 本福特定律认为自然数0到9的使用概率是呈现从高到低分别,排在前面的使用频率最高,排在后面的使用频率越低。如果选举是合法的,没有人为操控,那么投票数字应该呈现出本福特分布。假如伊朗的某位候选人在一个省获得了14579张选票(迈赫迪卡鲁比在伊斯法罕所获得票数),那么7和9这两个数字便值得关注。两位作者使用伊朗官方提供的29个省的投票统计数据,分析了内贾德、穆萨维、卡鲁比和雷扎伊各自获得的票数,发现数字7出现的频率占到了17%,数字5只有4%,0、1、2占大约10%。作者对比了去年美国大选奥巴马和麦凯恩的的票数,发现后面的数字出现频率都低于14%。研究人员还根据了另一项理论进行分析:心理学家发现人习惯于写出相邻的数字,不习惯写出不相邻的数字,伊朗大选数字显示不相邻的数字所占比率仅为62%。综上所述,他们认为选举合法的概率只有0.05%。

    基本看懂了,但还是希望有大牛深入介绍一下这个神奇的定律及其应用。

    • 家园 不是大牛,探讨一下这个有趣定律

      这个定律可以这么直观地理解:

      首先,这个自然世界的“测量值的对数”被发现是近似均匀分布的。楼下有用书的页码分布举例的,其实不太合适,因为书的页码不是自然现象,而是人造的均匀序列。比如说大学新生的身高值,显然不是从一米到两米均匀分布的,但是身高值的对数,却是近似均匀分布的。

      在这个基础上就好理解了,测量值的打头的那个数字是对测量值最有代表性的,所以它的对数是近似均匀的,再看看对数坐标纸,比如这个,

      点看全图

      外链图片需谨慎,可能会被源头改

      最宽的那些个区间代表1打头的数字,这个区间占据整个空间的大约三分之一,这就是对十进制数字的情况。

    • 家园 糟蹋数学啊
    • 家园 数学真神奇——指数定律解释暴动

      又有了一个数学的社会学应用的例子

      After creating 10,000 virtual wars with the model, the researchers found the same patterns as in the nine real insurgencies. "There is a generic way in which humans 'do' insurgency and terrorism," the researchers conclude in the 17 December issue of Nature.

      点看全图

      外链图片需谨慎,可能会被源头改

    • 家园 这里说的“概率”应该是p-value吧

      p-value跟概率是两回事。用假设检验来计算p-value比较容易,但要计算具体的概率,还需要知道是否存在舞弊的先验概率,这个值是很难得到的。详细的解释可参阅之前某位朋友发的关于Bayesian定理的帖子。

    • 家园 【资料】补充一下原始资料和其他资料。

      一个博客,作者的推论是选举没有舞弊:http://www.jgc.org/blog/2009/06/benfords-law-and-iranian-election.html

      arXiv上的原始学术论文:Benford's Law anomalies in the 2009 Iranian presidential election

      • 家园 这里面有个问题

        做N个测试, 然后挑其中最反常的一个, 这时候的统计显著不等于通常意义的统计显著, 0.05的cut-off也不意味着0.05, 而是高得多或者说不显著得多.

        所以我对楼主提到的那篇报告, 以及这篇arxiv上的论文都有这方面的怀疑.

        不知道厚积怎么看?

        • 家园 多重假设检验的p-value是要校正的

          比如用Bonferroni correction或者Benjamini-Hochberg correction.

        • 家园 我对统计学懂得很少,尤其是假设检验这一块,

          所以就不妄言了,等着真正懂行的人来解释吧。

          不过悄悄地说,我学假设检验的时候,心里面是有嘀咕的,主要是觉得这里面有一定的主观性,不如点估计理论那么严谨。还需要再多学学,看能不能解答自己心中的疑问。

    • 家园 舞弊研究者舞弊更容易呀

      百度

      本福特定律  数字统计的一种内在规律,指所有自然随机变量,只要样本空间足够大,每一样本首位数字为1至9各数字的概率在一定范围内具有稳定性。

      科学家们还是发现一些奇特现象。比如当对数据库中的第二重要数字进行调查时,该定律仍然发挥着作用,但是第二重要数字的重要性却降低。同样,第三和第四重要数字所展现出来的特征就开始变得相同起来,第五重要数字的频率为10%,刚好是平均数。

      到这位专家这里:

      假如伊朗的某位候选人在一个省获得了14579张选票(迈赫迪卡鲁比在伊斯法罕所获得票数),那么7和9这两个数字便值得关注

      反忽悠的弦看来一刻也不能放松呀

      • 家园 “首位数字”这个条件是关键性的

        我觉得这个定律定性的解释还是容易的,定量的解释就要困难了。

        举个例子,如果我们有若干本书,每本书的页数都是随机的,每本书的页数都是从1开始标号。如果我们以等概率选择所有页,那么显然选择到号码的第一位数字比较小的页数的可能性比较大。

        比如一本书有399页,那么它有1+10+100页的首位数字是1,2,3,而只有1+10页的首位数字为4,5,6,7,8,9。无论哪本书中,首位数字是1的页数总是要大于等于首位数字是2的页数,首位数字是2的页数总是要大于等于首位数字是3的页数……

        末位数字可就没有这么好的性质了。

    • 家园 还是天朝威武啊

      外链出处

      调查问卷主要在洛阳洛龙区和新安县进行,问卷共发放100份,有效回收100份。

      调查显示,在对运动项目的兴趣方面,跑步、羽毛球、篮球、乒乓球很受学生青睐,其比例分别是58.17%、58%、45.69%、42.18%,而选择足球的仅有15.29%,选择其他的有13.18%。

      在调查长跑活动给学生带来的好处时,92.79%的学生认为强健了自己的身体,79.44%的学生认为磨炼了自己的意志力,认为能缓解压力和促进学习进步的学生分别有60.46%和49.38%。

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河