西西河

主题:专家利用本福特定律推断伊朗选举合法的概率为0.05% -- meokey

共:💬30 🌺34
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 期待老大用技术手段检验“阴谋论”和“大棋论”
家园 花谢。我两卷都有,呵呵。

看得出来兄台学识不凡,以后多指教哈。

家园 可能有些误导你了。

我没有这么牛,而且现实世界很复杂,我个人认为现在的技术手段还无法建立合适的模型。

我想说的其实就是和主贴的意思相近,就是在事情足够简单使得我们可以建立概率模型的时候,可以用统计中假设检验的方法做一些论断。

基本想法是这样:假定没有大棋党在搞阴谋,那么事物就应该是完全随机的。那么它们就应该服从某种分布规律,例如主贴里的本福特律。但是现在一个小概率事件出现了,比方说一个概率为1%的事情出现了,那么我们就可以说,“有99%的置信度是有大棋党在搞阴谋”。

我不是统计科班出身,上面的解释也不太精确,但是意思大致如此。一个具体的例子就是我提到的高尔顿秩序检验。菲勒书上还有一个排排坐吃果果的例子。大致意思是有m个人要去坐n把椅子(m<n),坐的结果发现这m个人都没有两个是挨着的,问“这些人有意避开其他人的概率是多大”?你可以琢磨琢磨这是不是类似于,“中国周围一圈都被美国势力给包围了,问美国这是无心之举的概率有多大?”

但是现实很复杂,坐椅子的概率可以推算,美国搞鬼的概率模型却不好建模。一个类似的复杂问题是,“只看股票交易情况(价格、成交量等等),如何设计一个统计假设检验用来检测是否有基金主动操纵?”

我知道曾有人试过这个题目,但是做得不太成功。

这些统计学的基本知识在我推荐的麻省理工开放课程上都有。我很希望年轻人能够掌握这些现代科学知识,并用于社会生活。美国在这方面做得较好,我认识有统计学教授常年做法律咨询顾问的,做的事情和主贴讲的有些类似。

推荐一下阿西莫夫的小说《基地》三部曲。其中提到“心灵历史学”的概念,就是基于大尺度人类社会存在统计规律的假设。我个人观察,这有可能是对的,尤其是有些人其实有类似读心术和控心书的本领--不是特异功能,而是一种洞察人性的本事,一半天赋一半历练。如果你注意观察,有可能在自己的人生旅途中会遇见这种人。呵呵呵。

家园 【资料】补充一下原始资料和其他资料。

一个博客,作者的推论是选举没有舞弊:http://www.jgc.org/blog/2009/06/benfords-law-and-iranian-election.html

arXiv上的原始学术论文:Benford's Law anomalies in the 2009 Iranian presidential election

家园 厚兄谬赞了

自认为还没学到家,还需要更多时间的积累和沉淀。

家园 这里面有个问题

做N个测试, 然后挑其中最反常的一个, 这时候的统计显著不等于通常意义的统计显著, 0.05的cut-off也不意味着0.05, 而是高得多或者说不显著得多.

所以我对楼主提到的那篇报告, 以及这篇arxiv上的论文都有这方面的怀疑.

不知道厚积怎么看?

家园 这里说的“概率”应该是p-value吧

p-value跟概率是两回事。用假设检验来计算p-value比较容易,但要计算具体的概率,还需要知道是否存在舞弊的先验概率,这个值是很难得到的。详细的解释可参阅之前某位朋友发的关于Bayesian定理的帖子。

家园 这就是 p-value 的一种通俗解释吧
家园 我对统计学懂得很少,尤其是假设检验这一块,

所以就不妄言了,等着真正懂行的人来解释吧。

不过悄悄地说,我学假设检验的时候,心里面是有嘀咕的,主要是觉得这里面有一定的主观性,不如点估计理论那么严谨。还需要再多学学,看能不能解答自己心中的疑问。

家园 “首位数字”这个条件是关键性的

我觉得这个定律定性的解释还是容易的,定量的解释就要困难了。

举个例子,如果我们有若干本书,每本书的页数都是随机的,每本书的页数都是从1开始标号。如果我们以等概率选择所有页,那么显然选择到号码的第一位数字比较小的页数的可能性比较大。

比如一本书有399页,那么它有1+10+100页的首位数字是1,2,3,而只有1+10页的首位数字为4,5,6,7,8,9。无论哪本书中,首位数字是1的页数总是要大于等于首位数字是2的页数,首位数字是2的页数总是要大于等于首位数字是3的页数……

末位数字可就没有这么好的性质了。

家园 数学真神奇——指数定律解释暴动

又有了一个数学的社会学应用的例子

After creating 10,000 virtual wars with the model, the researchers found the same patterns as in the nine real insurgencies. "There is a generic way in which humans 'do' insurgency and terrorism," the researchers conclude in the 17 December issue of Nature.

点看全图

外链图片需谨慎,可能会被源头改

家园 糟蹋数学啊
家园 多重假设检验的p-value是要校正的

比如用Bonferroni correction或者Benjamini-Hochberg correction.

家园 不是大牛,探讨一下这个有趣定律

这个定律可以这么直观地理解:

首先,这个自然世界的“测量值的对数”被发现是近似均匀分布的。楼下有用书的页码分布举例的,其实不太合适,因为书的页码不是自然现象,而是人造的均匀序列。比如说大学新生的身高值,显然不是从一米到两米均匀分布的,但是身高值的对数,却是近似均匀分布的。

在这个基础上就好理解了,测量值的打头的那个数字是对测量值最有代表性的,所以它的对数是近似均匀的,再看看对数坐标纸,比如这个,

点看全图

外链图片需谨慎,可能会被源头改

最宽的那些个区间代表1打头的数字,这个区间占据整个空间的大约三分之一,这就是对十进制数字的情况。

家园 还是罕见的

超多重人格分裂,美人至少100 个。

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河