西西河

主题:【原创】雷锋是这样死掉的 -- 淮夷

共:💬53 🌺553 🌵1
分页树展主题 · 全看首页 上页
/ 4
下页 末页
  • 家园 【原创】雷锋是这样死掉的

    点看全图

    外链图片需谨慎,可能会被源头改

    最近坐火车往肇庆,途中读一本书《Paradigms Regained》,作者John Casti是加州大学的数学家。作者讲到自然界存在大量“利他主义”现象,很多动物互利合作,令人难解。

    例如有一种鸟叫阿拉伯鸫鹛(babbler),形如麻雀。它们喜欢无私奉献,帮同类搓澡、照看病鸟、给别人家幼鸟喂食,等等。甚至,它们为争夺主动奉献的机会而发生冲突。称它们是“雷锋式”小鸟也不为过。

    事实上,吸血蝠、猿猴、獴类、荆鱼、海象、甚至病毒,都在某种程度上呈现出类似的利他行为。你很难把这些行为归结于动物的高风亮节或者利益计算,因为动物既不知何为道德,也不懂成本效益分析。

    在进化论学者看来,这种模式完全是自然选择的结果。遗传基因中含有“合作和付出”的因素,我给它起了个也许不太贴切的名字叫“雷锋基因”。相比自私行为,雷锋基因使某些动物在演化中获得优势,所以自然选择会朝着有利它们的方向发展,使这种遗传类型得到传递。

    那么,人类也有雷锋基因的吧?

    我想应该是有的。在我读的一些书中,我发现很多历史事件皆可借此解释。

    譬如一战时期,欧洲西线出现壕沟对峙,英军德军躲在各自的战壕后面,战局长期僵持。对于英德壕沟之战,描述最多的词汇是“惨烈”,10%士兵战死,伤者不计其数。但是历史学家Tony Ashworth写过一本书《Trench Warfare》,披露了另外一面。

    他写道(大意):英德壕沟战普遍存在一种“表演”的性质,交战士兵定期互相开枪开炮,假装很忙。这种假打不仅蒙骗了自己的上级,而且向敌人表露出合作的意图。

    双方显然都在发扬某种“雷锋式”精神。比如,绝不袭击对方开到壕沟边的运饭车,尽管打掉运饭车一点都不难,但大家都主动给对方留出吃饭时间。再比如,督战的英国军官发现,德国士兵就在英军射程范围来回走动,而英军对射击敌人的大好机会往往无动于衷。

    这种离奇的现象在1914年的圣诞节达到顶峰,英德士兵甚至走出战壕,互致问候,还踢了一场球赛,史称“圣诞停战事件”。类似的事件在一战时的法德战场和东线战场也曾相继上演。

    在博弈论看来,阿拉伯小鸟和英德大兵面对的都是经典“囚徒困境问题”。意即,当你的对手做雷锋时,你的最优策略其实就是欺骗他、利用他、攻击他。当然,对方也不傻,也会同样选择。是以,最终的均衡解只能是:欺骗vs欺骗。

    现实中,小鸟和士兵并没陷入双输之局,而是选择合作vs合作的策略。这是因为双方面对重复次数的“非零和博弈”。在这种设定下,发挥雷锋精神是很有好处的。

    针对此种类型的博弈,密歇根大学的Robert Axelrod在70年代组织过两次大赛,目的是寻找到最优策略。

    第一轮大赛中,人们提交了一些复杂策略,这些策略捉对厮杀,最终胜者是一个超级简单的策略tit-for-tat,只有4行程序组成,由多伦多大学的数学家Anatol Rapoport设计。

    第二轮大赛吸引了62名学者,涵盖经济学、物理学、数学、计算机、进化生物学各个领域,tit-for-tat继续胜出。

    字面上,tit-for-tat的意思是“以牙还牙”,这个策略的全部规则只有两条:1)第一轮主动合作,2)此后的所有轮次,均跟随对手上一轮的策略。

    这个策略有何特别呢?简单的说,它是一种“先礼后兵”的策略,既有合作意愿(雷锋基因),又不容许别人沾光。你若合作我也合作;你若欺骗我也绝不饶恕。这像圣经旧约讲的“以眼还眼,以牙还牙”,而非圣经新约所讲“左脸被打,右脸送上”。

    一战时英德壕沟对峙其实便是一种真实世界的tit-for-tat。双方假装打枪,彼此大增活命概率。可如果一方突然来下真的,敌人也必全力报复。

    在密歇根大赛一枝独秀的tit-for-tat,是否也是真实世界的最优策略呢?

    其实你很难在真实世界寻到答案。小到一个人的处事待人,大到两国外交纷争,都要大量重复性的可控实验才能证明出,tit-for-tat是否最管用的一招。此种大规模社会实验显然很难落实。

    不过,计算机程序模拟出一些有趣的演化博弈,给人们寻找最优策略提供了新思路。

    1997年,瑞典物理学家Kristian Lindgren创设了一个“丛林博弈程序”。这个程序类似于“大糖帝国”,在一个128X128的棋盘上展开。

    点看全图

    外链图片需谨慎,可能会被源头改

    棋盘上有16,384个单元格,一个单元格代表一个独立决策的个体(agent),不妨想象为社会中的每个人。

    规则是这样的:

    1)每个格子与相邻格进行一对一的囚徒困境博弈,意即人人都有“欺骗”动机,但是合则两利,骗则双输。

    2)平均获益最高的格子成为赢家,它用的策略在下一轮扩充到相邻格。从进化论角度来说,该策略得到了成功的繁殖。

    不难想象,这就像是一个达尔文式的丛林,人们使用着不同的竞争策略,而目标都是一样的:追求个体最大获益和最终的生存繁衍。

    Lindgren的模型用00、01、10、11指代四种不同策略。程序初始,单元格被随机性分配其中的一个策略,这包括1) tit-for-tat;2)anti-tit-for-tat (反跟随,对手合作我就欺骗,对手欺骗我就合作);3)永远合作;4)永远欺骗。

    为了模拟真实世界的复杂性,Lindgren为这些彼此竞争的策略设计了一些类似基因进化的特性。比如,某个单元格可偶然犯错,背离当前的最佳策略。再比如,01可进化为011(基因复制),意味着记忆力提升,可以分析历史上的交手步数来决定如何行事。再比如,一个策略也许已进化为011011000110001的复杂度,但是它也可能突然拦腰折断为011011(基因变异),这意味着记忆力大减。

    Lindgren按动启动键,于是这些获得生命的单元格按照各自策略,厮杀起来。

    那么,tit-for-tat又赢了吗?

    下面是程序模拟了26,000轮之后的结果。

    点看全图

    外链图片需谨慎,可能会被源头改

    横轴是时间,纵轴是不同策略的人口分布占比。占比越高,这策略越成功。

    一个明显的结果就是:在这个复杂性的进化系统里,不存在所谓的“最优策略”。

    某些简单策略最初也曾大占优势(例如01),随着时间演进,一些复杂策略(例如1101)开始进化出来,晋身市场主流。而在模拟的最后阶段,更复杂的策略例如1001000101011001异军突起,搞掉了大部分曾经很成功的策略。

    你可以重启程序无数次,每一次模拟结果都看到不同的细节,但大趋势上,结论是类似的:没有任何单一策略可以长期管用。你若喜欢用tit-for-tat行事,也许能成功一时,但是终究别人会弄出更聪明的策略,把你搞死。

    其实观察这个模型的结果,和观察自然丛林中的物种进化,得到的启发是差不多的:任一时点上,活下来的物种,都可称是一个赢者,因为别的物种都被淘汰掉了。

    既然没有永远的最佳策略,不妨回到一个直面人性的问题:我现在该怎样行事?做一个雷锋,还是做一个恶人?

    也许下面的一个实验,可以给人一些选择上的启发。

    1992年,牛津大学数学家Martin Nowak和Robert May合作设计出一个著名的空间博弈。

    游戏规则类似于Lindgren的丛林程序:相邻单元格进行一对一的囚徒困境博弈,得分最高策略得到繁衍。不同在于,现在你只有两个策略可选:合作或欺骗。每个格子可在两个策略之间随意转圜。

    这等于是说,你要么做一个善人,要么做一个恶人。而且,你可以在善恶之间跳来跳去。你相信“人性本善”还是“人性本恶”呢?考验的时候到了。

    在初始设定中,人群中的善恶比例是50:50,随机的撒布在棋盘上,就像下图显示(蓝格代表合作策略或曰善人,红色代表欺骗策略或曰恶人)。

    点看全图

    外链图片需谨慎,可能会被源头改

    随着模拟轮次的推进,善恶边界不断变化,逐渐演化成下面模样。

    点看全图

    外链图片需谨慎,可能会被源头改

    这个图基本算是一个善恶共处的国度。顽固的欺骗者(红色)与顽固的合作者(蓝色)皆有各自生存空间。夹在二者之间的黄绿二色,代表“变节者”,它们由善转恶或由恶转善。

    一个值得注意的现象是,善恶分布已从最初的随机撒播,演化为岛屿状的各自群聚。

    譬如图中有很多蓝色小岛,岛上居民都是坚定的善人,不妨称它为雷锋岛。雷锋岛居民彼此合作,获得了高于彼此欺骗的获益,这使他们的合作策略得以占有一块地盘,集体防御了欺骗者。与此类似,若把一个善人丢进红色小岛,它很快就被周围的欺骗策略吞噬,合作策略无法生存到下一轮。

    现在,一个有趣的问题是,假如把初始设定改一下,大幅提高好人的比重,结果会不会更好?

    这个问题并没有固定答案。实际上,这最终取决于在博弈程序的payoff matrix中,你如何设定合作策略与欺骗策略的获益参数。当欺骗带来获益高过一个门槛值时,你会看到下面的结果。

    在下面的初始设定里,超过99%的人口都是活雷锋,只有零星的欺骗者。你不妨想象这是一个人性本善的“好社会”。

    点看全图

    外链图片需谨慎,可能会被源头改

    下面显示,程序执行了1000轮的演化之后,欺骗者可以不断的从大片雷锋人口中获益。这种获益很高,欺骗作为一个管用的策略开始繁衍和扩大地盘。

    点看全图

    外链图片需谨慎,可能会被源头改

    模拟到5000轮的样子:

    点看全图

    外链图片需谨慎,可能会被源头改

    模拟到1万轮,雷锋已经所剩无几:

    点看全图

    外链图片需谨慎,可能会被源头改

    最终结果你大概已经猜到了:

    点看全图

    外链图片需谨慎,可能会被源头改

    在这个版本的虚拟世界,欺骗策略最终大获全胜,所有的雷锋都死掉了。

    回顾Lindgren和Nowak的模拟程序,人们看到“好”社会和“坏”社会的兴与衰,它们此起彼伏,无法预料。每个身在局中的人,都很难寻得一个稳定的最优策略。最要命的是,你根本无从得知,你如今身在第1000轮的乌托邦,还是在第1万轮的黑暗社会?

    我觉得人和许多动物一样,都具有合作利他的基因,但是,此类基因能否得到成功繁衍,不单纯是发扬雷锋精神那么简单,而是取决于其他人的选择、善恶的奖惩机制、以及每个人所处的局部环境。

    因之,18大之后提倡“学雷锋活动要常态化”,我觉得这算是一个政治正确的号召,尽管这句口号也许完全抓错了重点。

    通宝推:马哥,sixue,左手拈花,钓者任公子,bluesknight,az09,王小棉她妈,玉垒关2,猪啊猪,切地雷,曲道自然,dashanji,平淡是真,tt086071,王敏,混天球,猪头大将,天涯睡客,西瓜子,等明天,东张西望,franky9,上古神兵,山远空寒,文化体制,龙城,月下,咦咦咦,联储主席,

    本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 【原创】中下层能爬上去兵守住富贵的大多是雷锋

      想安全往上爬,“按劳分配”落到实处的环境最好。别幻想中大奖什么的,福彩等是否有猫腻姑且不论,古人认为三大不幸之一就是“路遇横财”,绝不是什么酸葡萄心理。不断地有选择利他让大众知晓是最佳也许是接近唯一的通道,雷锋是很好的说明,他绝不是傻帽,真的做好事不留名就没他的事迹了,毛主席说过,这人懂点哲学。提倡学雷锋一是为了鼓励利他,二是给受教育不多的人指明方向,当然还有“做毛主席的好战士”等延伸表态……

      部分专业和人品都不错的人才之所以在中下层徘徊,一是既得利益者的刻意打压,二是缺乏勇气和责任心,关键时刻不敢挺身而出(其实多数时候危险不大)。除非老毛那样的圣君掌权,中下层想跃升阶层,“谋道不谋食”是必需的选择。

      中下层能爬上去兵守住富贵的大多是雷锋

    • 家园 看过方舟子介绍一个有趣的实验,结论有点不太一样,结论是

      看过方舟子介绍一个有趣的实验,结论有点不太一样,结论是这更像是“雪堆博弈”,特立独行是最佳策略:举世皆好人时当骗子,举世皆骗子时当好人,这样最有可能获得成功。

      我把原文顺序改了一下,好让大家首先看那个有趣的实验,喜欢看原文的直接看链接好了。

      http://news.sciencenet.cn/htmlnews/2009/4/218371.html

      方舟子:单糖效应——好人和骗子的博弈

      酵母菌通常利用单糖(葡萄糖和果糖)作为营养。如果环境中没有这些单糖,酵母菌也能利用其他糖,例如蔗糖(比单糖复杂的二糖)。但是酵母菌要先把蔗糖消化成单糖,为此需要分泌转化酶来催化这个消化过程。这个消化过程发生在细胞外(更确切地说,发生在细胞膜和细胞壁之间),产生的单糖扩散开去,其他酵母菌也能利用。有的酵母菌的基因发生突变,生产转化酶的基因失去了作用,自己不能分泌转化酶,但是它们能窃取其他酵母菌制造的单糖,又可以节省进行消化的成本。它们成了“骗子”,而那些耗费能量把蔗糖变成单糖的酵母菌成了“好人”(合作者)。

      对群体来说,大家当好人彼此合作,全都生产单糖并分享,这样最有优势。但是对个体来说,当骗子最有优势。休斯顿大学的研究人员曾经做过一个实验,结果表明,一个酵母菌群体中好人的密度越大,当骗子的优势就越明显。他们认为这像是“囚徒困境”。在这样的群体中,好人和骗子分享全部的资源,而好人要承担生产成本,因此好人总是竞争不过骗子,一旦出现骗子,它们的后代数量会越来越多,好人的数量会越来越少,等到骗子们统一了天下,末日也就快到了,好人遗留下来的单糖被耗尽后,群体就会灭绝。一个处于“囚徒困境”的群体是很不稳定的。

      实际的情形可能比这复杂。麻省理工学院的研究人员最近发现,好人生产的单糖并不是100%拿出来共享的,而是自己会截留一小部分,虽然私藏的这部分很少(只占约1%),却让好人在利用单糖方面比骗子有了一点优势,在一定条件下这点优势超过了制造单糖的成本,就会让当好人在总体上比当骗子更有优势。好人也会有机会。

      实验的结果的确如此。在好人的数量比较少、单糖的量也比较少时,能否有效地利用单糖就显得比较重要,好人对单糖的利用率高了1%,其优势较为明显,好人的数量会逐渐增多。等到好人的数量达到一定程度,好人制造单糖花费的成本的劣势体现出来了,骗子的优势反而更为明显,骗子的数量就开始逐渐增多了。最终,好人和骗子的比例会达到平衡。实验表明,不管一开始酵母菌群体中的好人和骗子的比例是多少,演变的结果,最后的比例都是一样的。

      1950年,美国数学家阿尔伯特·塔克在斯坦福大学给心理学家作报告时,讲了一个故事。警察在盗窃现场附近抓到了两名疑犯阿尔和鲍勃,把他们分开审讯,并分别向他们开了条件:如果两人都不招供(疑犯彼此“合作”),警方没有他们盗窃的证据,将以携带武器这一较轻的罪名各判处一年监禁。如果两人都招供并牵连对方(疑犯彼此“背叛”),两人都将各判处10年监禁。如果有一人招供并牵连对方,而对方不招供,此人将被免于起诉,而对方将被判处最高刑期20年。

      阿尔会想:“鲍勃要么招供要么不招。如果鲍勃招了,而我不招,那么我将被判20年,我招了则被判10年。如果鲍勃不招,我也不招,那么我将被判1年,但是如果我招了,我将被免于起诉。所以不管鲍勃招不招,我招供都是最好的选择。”鲍勃也这么想。最终两人因为都“理性”地选择招供而被判了10年。但是如果他们都“非理性”地选择不招,则只会被判1年。

      理性的选择却不能带来最佳的结果,这个“囚徒困境”后来成了博弈论最著名的问题。博弈论还有一个类似的问题也是关于合作与背叛(或欺骗)的关系,但是条件有些不同。有两个人驾车回家,遇到暴风雪,被雪堆分别堵在了街道的两头。司机要么出来铲雪清除路障,要么待在车中。如果两个司机分别从两头铲雪(“合作”),就能都开回家并分担劳动付出。如果只有一个司机铲雪,另一个司机待在车中等对方铲完雪,他也能回家,而且还避免了劳动付出(“欺骗”)。当然,如果两人都待在车中,没人铲雪,那就谁也回不了家了。在这种情况下应该怎么选择呢?最佳的策略是作出与对方相反的选择:如果对方当“好人”铲雪,我就当“骗子”坐等其成;如果对方不铲雪,我就当“好人”自己来铲雪,这样虽然被人占了便宜,总比坐以待毙的好。

      博弈论在第二次世界大战结束不久后出现,本来是为了解决政治学和经济学问题的。上个世纪70年代,它开始被用来解决自达尔文以来就困扰着生物学家的一个生物进化难题:本质上是自私的生物个体为什么会进化出合作行为?它是自然选择作用下不加思索的本能行为,因此就连毫无思考能力的单细胞生物,也会面临着合作还是欺诈的两难,比如酵母菌。

      因此,这更像是“雪堆博弈”,特立独行是最佳策略:举世皆好人时当骗子,举世皆骗子时当好人,这样最有可能获得成功。

      • 家园 不对吧。举世皆坏人,则从善,不就是楼主的倒数2图吗?

        最后恶一统江湖,善消失了。。

        还是看获益和损失比吧。。恶和恶之间要有欺骗,如果欺骗的损失大于收益,恶的也要叛变了噻。

      • 家园 结论存疑

        谢谢分享。不过,”特立独行“并不是一个占优势的多轮策略。某些动态策略比如”巴甫洛夫策略“,也许更有现实中的指导意义。我感觉方舟子文章对博弈论的理解是静态的和机械的。

      • 家园 有时‘特立独行’对群体是有害的,需建惩罚机制。

        比如抵制日车,日车降价,‘特立独行’者趁机买,个体是占了便宜。

        普遍点说某些‘特立独行’是群体内部合作破坏者,使群体变为类单糖的较低级系统。成熟的群体应该有相应的惩罚机制,否则在群体与群体之间的博弈中必败。这在人类社会中很根本,比如西方对己方宣传United we stand, 对别人用Divide and conquer。 汉语叫‘团结是钢’,‘分而治之’。

        正如楼下‘R是Q后面的那’ 网友所说,在模型中加入获益的总量,才能更真实的模拟人类群体及别的生物群体。最好模型中加入群体与群体之间的博弈,以及大势(类似于社会风气)消长等这些整体因素。

    • 家园 你这个初始设定人群中的善恶比例50:50的博弈演化图,

      最后好像还是坏人取得了更大的胜利。占的地盘更多。

      而且,后面一种设置中,好人比例提高,不过中间也会经过50:50,然后坏人一统天下。

      那么,其实,无论如何,坏人都会取得最终的胜利吗?

      • 家园 其实这个实验有很大局限

        我觉得善恶转化的关键在生存空间。

        从历史上看春秋开始的礼乐崩坏就是因为生存空间减少了,西欧从蒙昧迈入近代就是因为大航海时代拓展了生存空间。

        从这个意义上看地球文明的发展前景不很乐观。

      • 家园 50:50的演化没有一个固定的分布

        随着时间的前进,“好”与”坏“的边界是不停变动的,始终没有一个稳定下来的结果。文中只是随机截取了一个样本,并不代表坏人的地盘一直更大一些。

        后面的那个模拟你说的对,确实经过50:50的阶段,但这个设置最终形成了一个稳定下来的结果(100%坏人),所以与上面50:50初始设定的动态结果是不一样的。

        有的模拟是动态结果,有的模拟是静态结果,这个取决于初始设计的参数,人数比例只是其中一个参数。

      • 家园 还有很多参数

        好人坏人的比例只是其中一个参数

    • 家园 一炮双响!

      送花成功。感谢:作者获得通宝一枚。恭喜:你意外获得 8 铢钱。1通宝=16铢

      作者,声望:1;铢钱:16。你,乐善:1;铢钱:7。本帖花:1

    • 家园 重点应该是雷锋叔叔发糖?

      奖励利他行为?

分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河