西西河

主题:【原创】社会科学的全面数字化 -- 同人于野

共:💬106 🌺360 🌵16
分页树展主题 · 全看首页 上页
/ 8
下页 末页
  • 家园 【原创】社会科学的全面数字化

    本文谈谈现代人,或者说现代的西方学者,是怎么研究社会科学的。在我国,常常是很多人因为感到数学不好学而去学社会科学,比如说去学法律。这样自然选择的结果是产生了一大批像李银河这样感情充沛而不切实际的所谓学者。然而现在最领先的西方学者已经抛弃了过去那一套抱着悲天悯人的心态空谈理论的研究方法。如果你去读他们的论文,你会发现其中到处都是图表和数学公式;如果你去观察他们的工作,你会发现他们大部分时间不是在写字,而是在编程。

    法律领域内有一个非常经典的问题:给犯罪分子更长的刑期,是否会增强对他的改造,从而减少其出狱后的再犯罪率?在以往,人们可能会从伦理,道德,心理学的角度去分析这个问题。有的人可能会举出各种例子来证明他的论点,然而这些例子往往是非常极端而没有代表性的。这个问题直到最近才得到一个有说服力的答案。

    耶鲁大学的Berube 和 Green 的研究完全基于数学统计。联邦法院总是随机的往不同的辖区派法官。有些法官倾向于重判,给长刑期;有些法官倾向于轻判,而随机过程决定了每个法官倾向于总体面对类似的案件。这样一来,可能完全相同的犯罪事实,有的犯罪分子比较幸运就获得了较短的刑期,而不幸的就会刑期较长。作者通过对一万多名犯罪分子记录的统计分析,结论是,刑期长短与再犯罪率无关。如果没有这样的统计数据,如果没有法官的随机指定,像这样的问题可能永远都无法解决。

    统计是一个非常强大的研究社会问题的手段。NCAA篮球中有没有球队参与赌球?拉斯维加斯的一个赌博项目是每场比赛的胜负分差(Point Spread),也就是我们所常说的让多少球。比如宾夕法尼亚大学对哈佛大学,赌场开出的分差是14.5分,也就是说如果你押宾大,他们必须赢至少15分你才能赌赢。如果你考察每场比赛的实际分差,和赌场事先开出来的比赛分差,其相差值几乎完美地符合正态分布(平均值是0)。这样一来,正好有50%的时候,胜者实际赢了对手多少分比赌场预测值高,50%的时候比预测值低。也就是说赌博的赔率几乎是50%。这种50%概率正是赌场最喜欢的赌赢概率。

    然而问题是,如果你考察那些胜负分差超过12分的场次,那么其分布就不是完美的正态分布了:有53%的机会,胜队实际取胜分差会比预测值低。为什么会出现这种情况?宾大学者 WOLFERS 猜测,当稳操胜券的时候,胜队会故意放水一点,去操纵比赛分差来影响赌局(术语叫做 Shave Points)。也就是说使用统计方法,你甚至不需要任何直接的证据就能发现有人参与赌博。

    类似的手段可以应用几乎任何社会领域。比如说婚姻问题。传统的婚姻问题专家判断一对夫妇是否会离婚,成功率只有53%,只比瞎蒙高一点。而最新的方法,听一对夫妇之间的交谈15分钟,专家就有能以95%的准确率判断他们未来15年内会不会离婚。其所使用的方法,是给这15分钟的交谈录像,然后几个人坐下来看录像,一个画面一个画面的分析其中人物的细微表情和语言,然后把统计结果输入一个事先做好的复杂方程之中,这个方程会告诉你该夫妇离婚的可能性。这个方程是怎么设计出来的呢?用大量的数据回归出来的。

    统计方法能够大行其道的根本原因是现在网路和计算机技术的提高,特别是便宜的海量存储给大量的数据分析提供了可能性。现在指导社会科学的先进文化是理工科思维,先进生产力是统计模型,计算机和海量的数据。

    这种通过分析海量数据来预测和理解社会问题的方法被人称为 number crunching,现在甚至已经有了专业的公司专门为商业公司干这个事情来预测顾客行为。这样做的一个结果是商家可能比你自己更了解你。比如你从 Blockbuster 租了一盘 DVD,Blockbuster 可能比你更了解你不按时归还的概率。

    一个典型的专业公司是 Teradata。它为65%的世界顶级零售商,70% 的航空公司,和40%的银行服务。他们的一个典型业务是判断哪些老顾客可能会因为一次不愉快的服务经历而离开你们公司。Continental Airlines 就专门有人做这个。比如一次航班误点或者行李丢失事件发生之后,如果统计分析系统判断某个长期顾客有可能要因此从此不飞 Continental 了,这位客户就会得到特别好的照顾。

    甚至赌场也这么做。每一个顾客入场玩都刷卡。他们根据每一个顾客的收入,年龄,以往赌博记录,居住地等等计算该顾客的 pain point - 也就是此人一晚上最多输多少钱下次还能来玩。一旦发现某位顾客今晚输的钱已经接近 pain point 了,就会立即派服务员过去邀请他免费吃顿牛排停止赌博。

    这件事情的最可怕前景是,商家将会可以根据顾客不同的价格承受能力,给每个顾客一个不同的价格。

    传统的社会专家靠直觉,甚至是个人感情好恶来做研究,而未来属于数字。但我国在这方面可以说是相当落后。我国"主流经济学家"经常鄙视那些玩数学模型的海归,人们不习惯用数字说话。

    更不利的一点是,我们可能根本就没有数字可以用。我国的统计水平可以说是极差,一个最基本的GDP数字居然都能随便变来变去。在这种情况下你怎么才能很好的做出决策?我们看NBA比赛,无不赞叹美国人对数字统计的热衷:这是他的这个赛季的第几个两双,如果他两双了球队获胜的概率是多少,等等等等。量化思维必须被培养成一种习惯。从这个角度讲,"吉尼斯世界纪录"的最大贡献可能是培养了人们尊重数字的习惯。

    没有数字就没有真像。

    本文素材主要来自两本书:Blink,作者是纽约人杂志的记者,和 Super Crunchers,作者是耶鲁法学院的教授,此人擅长用计算机做统计研究。

    通宝推:活在当下,

    本帖一共被 5 帖 引用 (帖内工具实现)
    • 家园 用数字说明

      有一位伟人曾经说过,如果你能用数字说明一个问题,证明你已经了解那个问题了(大概,不是原话)。

    • 家园 这个角度很有趣,也很正面。花一个。

      但是想一想全面数字化的时代,就让人不寒而栗。

    • 家园 这个才有意思么
    • 家园 这不奇怪

      以前还有人用几何学写军事理论书呢

    • 家园 数学是上帝用来书写宇宙的文字

      虽然我记得这句话是笛卡尔说的,但是google了一下都是说原创是伽利略。

      尽管如此,我还是更相信在数学,特别是统计学,能够有效工作以前非常有赖于正确的假设和逻辑分析,数学不过是使对理论猜想的论证过程量化、清晰、严谨起来。

      之所以主流经济学家对统计工具如此爱不释手,完全是因为处于儿童期的经济学对外部世界的认知是如此幼稚,而又缺乏趁手工具所致。

      我的想法是对滥觞兄观点的通俗解释,如果不准确责任在我。

      关键词(Tags): #哲学#经济学
    • 家园 量化
    • 家园 想起了一个学科:“心理史学”。。。
    • 家园 凡事不能矫正过正

      我很赞同你关于国内对统计学的重视和运用水平都太低,应当大力推广统计学的运用。但不建议将统计学的作用推得太高,至少现在不行。实际上每本统计学理论书上都会对这方面进行论述。统计学只是一种工具,他的模型提出和判断实际上是取决于这门学科本身的内在关系。严格地说你上面说举的例子只能说他们的答案有较大可能。

    • 家园 迷信数字化和单纯思辨都是一厢情愿

      一个把脑子交给了数字,一个把脑子当成了世界;一个是精神上的乞丐,一个是梦中的贵族。

    • 家园 有关统计, 多说两句

      看到统计分析用的越来越广, 在社会科学上得到全面应用, 亦喜亦忧. 喜的是俺本是个工科脑袋, 专爱严密的hard science, 不喜欢定性研究为主的soft science. 看到soft science逐渐硬化, 心中自然高兴. 忧的是, 数据统计本身太多trick, 差之毫厘, 失之千里. 曾有幸听某统计界大牛讲座, 一上来就把美国搞药物研究的人骂个臭死, 说他们那种漏洞百出的实验,根本无法说明药物是否有效性. 此观点也许极端, 但确实做统计研究要慎之又慎, 如果把统计分析结果用到社会分析决策这么重大的领域, 如何保证其结果的严密性, 不为掌握工具的人操控, 而让大家放心. 是一个必需考虑的问题. 最恐怖的就是民众,领导都是外行,被少数有私心内行打着科学的旗号唬了而导致严重后果.

      • 家园 试验设计上不用统计理论,结果上却要用统计分析

        主要问题在这里吧。试验是如何设计的直接决定使用何种统计方法,但是有多少研究是在设计时就想过统计呢?结果出来之后对数据百思不得其解想到统计了,你还不能跟他说你这个就是乱来,还得给他套个模型给个结论,虽然自己知道那里面漏洞百出,可是专业领域又有几个懂统计的,几个统计名词就唬住了?医药已经是应用统计很好很好的地方了,其他领域恐怕还跟统计绝缘呢。

        然而统计本身也没有那么可靠,可玩的东西太多了,甚至几个统计专业软件也有互相矛盾的地方。

    • 家园 所谓没有调查就没有发言权嘛

      常常看到的是几个例子吃一辈子,很容易混啊!

    • 家园 关于分布公式

      眨眼之间:不假思索的思考力量,这本是讲直觉瞬间判断的吧?

      Super Crunchers在台湾有译版,大陆这边好象还没出.这本只是灌输概念的通俗读物,真正data mining还得去找教材.

      黑天鹅那本书对高斯分布很贬低.为何统计学家会把很多分布认定为高斯分布呢?就象排队问题总是用泊松分布去套一样,我一直不明白为何排队就是泊松的,只知套公式.

      因为这样套用就会有最小方差?

      • 家园 高斯分布是最重要的分布

        没有之一。

        我没看过黑天鹅,不知道它如何批评。

        从数学角度看,概率论里有所谓“中心极限定理”(Central Limit Theorem, CLT),是说:

        大量的独立的随机变量的平均数的分布趋向于高斯分布。

        最简单的例子是你掷10000次硬币,正面算1,反面算-1,所有数的平均数一定是以0为中心的高斯分布。

        这里“独立”这个条件很重要,实际生活中经常不满足,所以常常有其他分布和相应的极限定理。

        下面ducati,老马丁解释的都很好。

        尽管有些缺点,高斯分布仍然是最重要的分布,没有之一!

分页树展主题 · 全看首页 上页
/ 8
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河