西西河

主题:【原创】统计狂人 -- 淮夷

共:💬42 🌺358
全看树展主题 · 分页首页 上页
/ 3
下页 末页
家园 【原创】统计狂人

点看全图

外链图片需谨慎,可能会被源头改

《Super Crunchers》是2007年耶鲁大学法学教授Ian Ayres写的一本畅销书。此书讲述统计学对日常生活和决策的影响。

对于学过统计学,或者用过SAS、SPSS这类建模工具的读者,此书的内容是很浅的。实际上,作者并未做技术讨论,只是简单介绍了几个基本的统计概念,比如正态分布、标准差、贝叶斯公式。

可以说,这是一本写给没学过统计学的人看的书。就像章诒和的《伶人往事》是写给不看戏的人看的。

字面上,data crunching和data mining意思差不多,指的是对历史数据进行统计分析和建立模型,试图发现数字中隐藏的规律。统计模型的目标并不是还原历史,而是预测未来。譬如书中提及的葡萄酒定价预测。

对专业品酒师而言,判断葡萄酒的质量,最重要的办法是品尝。他们依赖舌头的口感和累年直觉,推断一瓶酒价值几何。这是品酒师作为一个职业赖以存在的基石。

1980年代,普林斯顿大学的经济学家欧莱,提出一个全新的预测办法:

葡萄酒的品质 = 12.145 + 0.00117×冬季降水量 + 0.0614×葡萄生长期的平均溫度 - 0.00386×葡萄收获期降水量

这个多变量回归公式看起来有点复杂。但是欧莱的逻辑说来简单:酒的质量取决于葡萄质量->葡萄是一种农产品->任何农产品的质量必然受到当年气候的影响。

从这个线索出发,欧莱挖掘了过去几十年法国波尔多(葡萄产地)的气象资料,然后和各年出产的葡萄酒品质逐一比对。他发现在又干又热的年份,葡萄成熟得好且汁浓,这种葡萄酿出的酒,酸度低且醇郁,是酒中上品。

欧莱的统计模型有一个好处,就是鲜葡萄刚摘下来,还没开始酿呢,人们就可以把当年气象数据放入模型,直接预测葡萄酒的品质和价格了。比如模型里有一个变量是”0.00386×葡萄收获期降水量”,这个变量的意思是,降雨每增加一毫米,葡萄酒的价格将降低0.00386美元。

这个模型对品酒师而言,简直是当面打脸,北京话说的“呛行”,抢人生意。品酒行业的大师罗伯特坐不住了。罗爷愤愤道:欧莱是一个彻头彻尾的骗子(“ an absolute total sham”),用数学公式预测酒的美味是荒谬的。

罗爷虽然火大,数学预测的结果与酒价的真实走势节节相符。相形之下,品酒师赖以生存的伎俩只是故作高深的鉴酒行话,比如这瓶酒尝起来非常之“musical, tight, rakish”。听来仿佛是赵丽蓉的台词:这酒怎么样,听我给你吹。

是故,相信大师的直觉,不如相信数字。这句话便是本书的核心观点。

题外话,在我看来本书的一大缺点,是过于推崇统计学和数字化。我觉得统计模型的几个弊病是值得专门探讨的(而此书并未讨论):第一,历史数据很容易被人为操纵,许多自洽的模型并非基于真实的历史。第二,统计意义上的关联常被解释为存在因果关系。用A可预测B,并不等于因为A才有B。没有因果关系的模型难免造出一些空中楼阁的预言。第三,复杂性的系统很难用任何现有统计工具预测,比如气象,比如外汇市场。过度相信数学的结果,是看不到黑天鹅的存在。

尽管有上述弊端,统计学的应用仍然已经渗透到美国社会各个层面。受到数据挑战的职业,除了品酒师,还有形形色色的所谓专业人士。比如棒球联赛的星探,传统的星探挑选潜力球员,全靠一双肉眼和感觉,而詹姆斯根据历史数据,用一个数学公式评估球员。

这个公式是这样:球员价值=(Hits+Walks)×Total Bases/(At Bats+Walks)。

我完全搞不懂这个公式的涵义。但是据Michael Lewis的畅销书《Moneyball》所叙,詹爷的公式打碎了颇多专业球探的饭碗。

在好莱坞,很多演艺人士的饭碗也受到威胁。书中提到一个数据分析公司叫做Epagogix。这家公司在电影开拍之前,不需要知道谁是导演和演员,仅凭剧本的内容就能直接预测电影的未来票房。它的预测准确率颇高,而且可用统计软件对剧本进行分解和情节改动,从而直接提高票房预测值。

这是数学模型对艺术创作的干涉。观众也许并不知情,但是他们走进电影院看到的所谓“好看的电影“,可能是机器的智慧,而不是编剧的才华。

还有一个类似的现象是教育领域。本书提及一个小学的教学法叫DI(Direct Instruction),中文的意思大约是“照本宣科”。根据DI法,教师上课时手拿一本事先编好的剧本,上面写道:同学们,让我们翻开课本到第X页,把手指放到课文标题下面,我数1、2、3,大家和我一起念…”

这个教学法的奇特在于,整堂课的全部台词都是事先统一印好的,老师照着念就成。不需要什么明星教员和个人魅力,庸师也能出高徒。

在美国的教学实验中,毫无人性的DI法对提高小学生能力竟是最有效的。这种工厂流水线的课堂模式得到了统计数字的支持,尽管美国的教师们并不肯买账。

面对此种被数字全面渗透的社会,不知黄仁宇若在世,做何感想。黄仁宇著作我读到频率最高的词是“数目字管理”。老黄感叹,中国历代王朝因为缺乏数目字管理的能力而在近世逐渐落在西方社会之后。

“数目字管理”这个拗口的词对今日中国并未完全过时。中国各地诞生过很多朝令夕改的公共政策,这些决策往往是当局者一拍脑袋拍出来的,而未经过严谨的数据论证。我有一次在新疆,一个饭局上见到当时的自治区副主席陈雷,陈随口背诵新疆各种数据,这算是一个很好的习惯了。不过,宏观层面,施政在中国似乎仍是一门艺术,用不到统计模型。

但在微观层面,data mining的商业价值已被许多中国企业注意到,且越挖越深。

譬如我的手机,每天收到10条以上广告短信,短信有卖房的,卖车的,还有卖发票的。这些广告并非群发给全国人民的,而是定向发送部分用户。什么样的用户呢?如果你是中国移动的VIP、或者你持有某家银行信用卡、或者你是某家航空公司的常旅客会员,你一准儿能收到此种广告,因为你的会员信息早被卖给广告商了。

出售会员信息牟利只是初级阶段。事实上,会员数据库是一个极有价值的金矿。统计狂人(本书标题所谓的super crunchers),根据你的刷卡记录、飞行记录、电话记录,利用统计模型可精准预测出你的未来消费趋势。

于是,顾客懵然不知之时,商家已针对其消费习惯制定了专门的营销策略。

这种被称作“数据库营销”的活动,在美国形成一个庞大的产业,专业的数据库营销公司已有在交易所上市的。在中国,这个产业2001年才出现。我见过几个自称做数据库增值服务的中国公司,基本上停留在花钱买个名单之后群发广告这种粗糙的营业模式,远谈不上数据挖掘的深度。

而以中国人口之多,消费数据积累之快,数据挖掘这门生意在中国的前景实在是光明的很。

话说回来,作为一个消费者,你真的愿意被这样数据挖掘吗?

好处是你有时候会感觉到方便。比如在亚马逊网站浏览的时候,网站会自动显示出你可能会感兴趣的关联书籍。这种便利是亚马逊应用统计模型对消费者进行后台分析的结果。

不好的地方在于,商家越殷勤,钱包越要看牢。书中提到一个有趣的案例是拉斯维加斯的赌场。赌场有一种消费卡,赌客刷卡赌博的时候,如果输的太多,快要达到”pain point”(痛苦点),系统会提示赌场员工邀请该赌客吃牛排,给他抚慰。目的是让赌客保持住对赌博的兴趣。

书中提到的赌场,其经营商叫做Harra’s(哈拉斯)。哈拉斯是全球最大的赌场运营公司,我有一次在北京和哈拉斯的亚太总裁见面,听他亲口说起赌场的这些猫腻,颇觉可怖。他说,哈拉斯计划把美国赌场的数据挖掘模式扩到澳门。澳门的赌徒们,你们被牛排了吗?

乔治奥威尔的小说《1984》描述过一个想象中的1984年的社会,这个社会的每个成员都被高度监控。他是这样写的:“你发出的每一个声音,都是有人听到的,你作的每一个动作,都是有人仔细观察的。”

2011就要到了,1984仍未离开。

元宝推荐:抱朴仙人,老马丁, 通宝推:tt086071,foureyes,上善若水,深夜腌的萝卜丝,Soen,铸剑,快刀浪子,史文恭,月光下的尘,

本帖一共被 3 帖 引用 (帖内工具实现)
家园 事实上个人感觉1984正在越来越近

活在当下而想要避世的,实在是不易。电子网络的普及减少了人们“保持联络”所需的成本。

超现实一点,怀疑共产主义社会会变成一个电子网络无处不在的高度数字化数据化的社会,类似Matrix

祝新年愉快!

家园 好文上花

感谢作者分享自己的思路。

家园 太恐怖了吧?有没有对美女的统计的好方法啊?
家园 我还是觉得统计方法简单地运用在经济中不是什么好事,

无论采用什么方法进行研究,最终都是找出研究对象的数学模型。简单使用统计方法得到的数据模型,对于相对简单的对象或许可行,但是当对象变得日益复杂时,简单使用统计方法可以得到一个相数学模型,但是缺乏对这类模型的深刻理解,失掉研究的最终意义。Lorentz变换与相对论也许是这样的一个例子。

家园 如果谁可以把非诚勿扰的亮灯做一下数目字管理

或者婚姻快到痛苦点时,律师上门请吃牛排。

家园 请看

链接出处

请看
家园 这是石壁,难得回来发言一次就是这些?

跟猫元帅发的苍井空一样

家园 线性近似那么有效啊

葡萄酒的品质 = 12.145 + 0.00117×冬季降水量 + 0.0614×葡萄生长期的平均溫度 - 0.00386×葡萄收获期降水量

把酒的品质表达成每个因素的线性函数,然后用数据拟合出每一项的系数。毫无疑问线性函数是最低阶的近似了。这么粗糙的近似能得到这么好的结果,这个我觉得还真的挺神奇的。

家园 这就是狗狗的可怕之处

它掌握你所有的数据,还加以分析挖掘。

有次我和一个朋友写EMAIL(两人都是用GMAIL),说我最近胖了,该减肥了,回头他回我说,他看信的时候,边上一排减肥药的广告。笑倒。

这还只是初级阶段呢,将来不知道会多可怕。

我爱莫扎特:GOOGLE的电池战略

家园 这篇文章的大部分内容都在同人于野的博客里看到过

或者应该说是同人于野看过《Super Crunchers》,所以写了那些博文。

没想到上面的文字引起了楼主的误会,我的本意就是同人于野也看过这本书,也写过类似的文章,并无影射楼主抄袭的意思。

家园 谢谢那么好的分享

祝你新年快乐

家园 Harrah的这一套是个真正的统计狂人搞的

Gary Loveman, 葛爱人,Harrah的CEO,本行就是干这个的,麻省理工的博士,哈佛的教授,98年转行入Harrah, 01年当CEO至今。

咱们顾客打电话进去订房,瞬间就会被根据历史记录(或者无记录)分类,然后你听到的有房没房,和报价都不一样。我一个穷光蛋打,人家可能直接告诉我没房,一个老赌棍打过去,可能房间免费,还附送大餐。

家园 共产主义=Matrix是精彩的联想

我觉得人类对乌托邦社会有一种幻想,我指的不仅是共产主义世界大同,也包括其他关于人性本善的美好想象。我个人更愿意读一些反乌托邦的书籍,那些黑色的幽默也许更接近真正的现实。

新年到来,不需要聊这么沉重。也祝你新年好!

家园 谢谢
全看树展主题 · 分页首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河