西西河

主题:【风言风雨】答阿康:囚徒两难和道德问题 -- 风雨声

共:💬56 🌺14 新:
分页树展主题 · 全看首页 上页
/ 4
下页 末页
  • 家园 【风言风雨】答阿康:囚徒两难和道德问题

    风雨声

    点看全图
    外链图片需谨慎,可能会被源头改
    点看全图
    外链图片需谨慎,可能会被源头改

    把生活简化成为数字模型

    囚徒两难问题是美国法律,商业和经济学生的必修题目,表达的方式千奇百怪。

    在这里我把博弈理论中的囚徒两难问题重新表述,把政治,商业,家庭等环境中的任何两个人的交往行为定义为一个简单交易,把人的各种对策简化为两种选择:善意的方案和恶意方案。

    那些诚实,遵守游戏规则的做法笼统称为善意方案,恶意方案则包括欺诈,不择手段等。这个模型同时假设每个人的选择处境相同,这和现实中大多数情况一致。他们做出不同选择的交易结果可以用下面一个矩阵说明:列为甲方的选择方案,行为乙方的选择方案,行和列相交为发生的交易。举一个例子,在甲方用恶意乙方用善意进行交易时,其数字为 150/-200,前一个数表示在此次交易中甲方收益150元,后一个数 表示乙方在此次交易中的损失 -200元。

    甲 方

    善意 恶意

    善意 100/100 150/-200

    乙方

    恶意 -200/150 -50/-50

    若两人都选择善意方案,那么生意成交,两人各得到利益100元。若两人都选择恶意方案,则生意做不成,双方各损失一笔交易费,和由於对方恶意遭受的损失得-50元 。若一方选择善意而另一方选择恶意的方案,生意可以成交,但选择善意的一方将损失200元,而选择恶意的一方可赚到150元。在作出决定之前,双方都不知道对方的选择,并按上述规则分配利益。

    在这场交易中要获胜,该怎么办?

    问题简化之后就不难解决,对比自己做每一种选择所获得的收益,聪明人经过仔细算计之后会择恶意方案。理由比较简单:

    --如果对方选的是善意,那么我选择善意或恶意将分别可获得 100 元和 150 元。换句话说如果对方选善意,我选择恶意比选善意要多得50元。

    --如果对方选恶意,那么我选择善意或恶意将别可获得 -200 元和 -50 元。换句话说,在对方选择恶意的情况下,我选恶意比选善意要少输150元。

    这结论一清二楚,第一,人心叵测我不知道对方会选什么, 虽然有一个100/100的交易方式在那里晃眼睛,但那都是天真的傻孩子才会当真。你用善意,盼望着双方都得到100元,人家一蒙你,拐跑了150元,自己损失200,这买卖能做吗。第二,无论对方选择哪种,我选恶意都会得到更好的结果,或多赚或少吃亏。

    在洋文里, 这叫做帕雷托最优解。在中文里, 这叫机关算尽太聪明。

    这个矩阵似乎用数量证明在一个物竞天择适者生存的险恶环境中,除了当恶人外别无出路了。想想在到处都是坑蒙拐骗的中国商场中,天天老实巴交的人最后会输得连裤子都没有了。在险恶的中国政治历史中,这个规律表现更明显,为了输赢不择手段被视为成熟老练,背信弃义被当成手段高明。中国的历史评论书籍充斥着相似的说法,其背后的逻辑其实是上述矩阵数字对比所说明的简单理由。这简直是物竞天择的数学解释, 天择是很霸道、果断又无情的。它不容忍弱者,对於受苦者也无动於衷。它欣赏强硬的生物。被这种力量塑造生物,必定会带著它的特徵,也必定得承受这样的自我形象, 注定要坚苦奋斗、追逐自己的利益、不顾他人死活, 而天择也必定会离弃侠义的自我牺牲行为。

    难道天佑恶人?

    这个结论下得早了一点。

    这只是一笔交易而已,我们再从另外两个角度看这些交易。

    一:交易反复发生的情况

    二:市场中所有参与者的总收益

    不要忘记了对方的处境和你相同,他也可以通过以上的分析得出相同的结论。即使对手傻一点,下一次碰上你后,也应该能学习上一次教训。而且世上除了一捶子买卖外,还有大量的重复交易。在后续交易双方难以有信任基础,最后结果就是以恶治恶,双方各得 -50 元。除了账面直接损失50元,双方还付出一个重大的机会成本:错失了一个对彼此都更好的结果: 善意对善意各得100元的选择。

    一笔交易后, 在人人都是君子的最好情况下所有人总收益是200,在大家都当恶人时是-100。

    数学家对模型作了一些修改:交易者为一大群人,两人一组进行交易,交易也不再只是一次,而是进行很多次,每次的分组方式都是随机的。模型还可以引入作恶方式,手段越来越狡诈。交易者在遇到同一个对手时,由於记着以前同这个对手的交易经历,可以根据这些记忆选择新一轮的交易方案。开始时交易者带有同等的本金,经过若干轮的交易后,表清良好,资金达到某一程度的交易者可以一分为二,繁殖出另一个同类。而表现不好的交易者,在资金低于某一限额后,将破产而退出竞争。

    参与者可采用的交易策略有很多,比如可以始终选择善意方案的善人,也可以始终选择恶意方案的恶人。在只有善人和恶人的世界里,恶人靠著与善人的交易获取的利润而越来越多,善人们纷纷破产直至全部消失。然后,在只有恶人的世界中,恶人们使用的手段也越来越恶劣,由于彼此的交易无法获得利润,最后也无法生存下去,市场参与者的总收益越来越小,最后全部灭亡。

    这真是一个悲惨的场面。

    中国政治历史从宋朝的杯酒释兵权,到明朝的屠戮所有开国功臣,再到人民共和国建国后不仅屠戮功臣还要引蛇出洞一夜之间把五十万人关进牛棚。人是越来越精明,越来越无所不用其极了,只是没有看到中国越来越强大,倒是中国GDP出从占世界的50%不断下降直到2%。人越来越多,但是占世界的份量越来越小。欧美人与人的交易天天产着正数,我们人与人不断产着负数,这算是对没有道德底线的窝里斗的数学描述。这越来越下作的打法以及中国过去几百年的发展方向和这游戏发展方向还有几分神似的地方。英国汉学家耶鲁大历史系的教授Johanthan Spence写中国现代历史就是从明朝开写。

    是否还有出路?

    很早的时候犹太人做生意,垄断了中东地区的材料供应,没有象今天的通讯,法律和国家手段来保护自己利益。他们的对手方远在天边,有的从未谋面,怎么来保证对手能够履约?这生意怎么敢做?

    犹太人组织了商业组织,把同他们做生意的所有合作夥伴的信用信息和所有人分享。一个欧洲的的商家欺诈了其中一个犹太人,他转向了别的犹太人希望故伎重演,但是所有其他犹太人已经了解到了他的信用记录,所有人拒绝同他做生意,对于以来于欧洲地区的商家,则不敢再犯。如此犹太人创造了世界上早期的信用制度。

    这个故事丰富了囚徒两难问题,他基本上说,参与者可以收集对手信息,可以选择交易的对象时,恶者就不再能肆无忌惮地剥削善者了,或者只此一回,没有下次。

    曾经有人主办过囚徒两难问题的世界比赛,在计算机上进行。最后有些出乎意料,获得优胜的策略十分简单,就是一种被称为"一报还一报"的策略。这种策略的方案是:对于初次相遇的对手,选择善意。以后,对于有过交易记录的对手,选择对手上次选择的方案。也就是说,若对手上一次给予的是善意,则这一次还之以善意,若对手上一次是恶意,则这一次选择恶意进行还击。

    在由善人,恶人和"一报还一报"组成的世界里,"一报还一报"之间,"一报还一报"和善人之间都将是善意对善意而彼此获得稳定的收入。"一报还一报"在第一次碰到恶人时会吃亏,但仅此一次,以后恶人将再也占不到便宜。最后,交易者的大多数将都是"一报还一报",靠著这些"一报还一报",少数的善人们能够生存下去,而依靠这些善人,少数的恶人们也有机会生存下去,达到某种平衡。

    总结, 道德在经济, 政治,社会中扮演的作用是什么:

    --建立信用社会的基础,降低交易成本。

    --向交易参与者释放一个信号,获得100/100而非-50/-50的机会。


    本帖一共被 2 帖 引用 (帖内工具实现)
    • 家园 差点错过好帖 花
    • 家园 上一朵小花

      好帖子别沉下去。

    • 家园 好帖不要沉下去
    • 家园 真是好文章!

      兄弟为人设计谈判策略时亦多用此法。

    • 家园 写得真好

      风雨声的帖子我最爱看,字字句句闪金光

      知识在哪里呀?知识在哪里?知识就在那风雨声的帖子里!

      风声雨声风雨声,声声入耳!

      太晚了,去睡了,改天再续。。。

      • 家园 巍巍, 你读的是毛主席语录吧,

        肯定不是我的文章。

        • 家园 好歹也是个小斑竹,怎么能打诳语呢?

          我把你的文章推荐给bf看了,他赞不绝口(他很少正面表扬别人的,关于这点我特受不了,换个灯泡、倒腾个电路这种是个人都会干的活还得研究个几年,有多迂腐可想而知了... --- 替我保密啊,看过此帖的人也不要声张,否则我耳根子又不清静了,他比唐僧还??嗦,怕怕呀)

          他把你的游记都存下来了,说那是benchmark,等我们8月份欧洲游回来,他也要着手写他的千年巨作,这可绝对是千年等一回...

    • 家园 那个pareto optimum可能不对。

      中文说不清楚,俺用破英语解释一下,呵呵。不过关键之处是个人是效用最大化,而不是利益最大化。因为在模型中引入了善意和恶意两个变量,所以在构建utility function 时也应该加入这两个变量,后面会出现,在前面说一下。

      Individuals maximise utilities instead of maximising profits, therefore, the payoff matrix should be showing individuals’ preference rather than profits outcome. We will see, later on, that under the different conditions there might exist different equilibriums, dominant strategy equilibrium (pareto optimum) or Nash equilibrium.

      Assume individuals have homogenous preference (non-homogenous case would be more complicated), and the individuals’ utility function is U (profits, goodness, badness),simply, we suppose it’s the linear combination of U(profits)―utility of profits, U(goodness)―utility of choosing goodness, U(badness)―utility of choosing badness, i.e. U (profits, goodness, badness) = U(profits) + U(goodness) + U(badness). Based on observations of real world or common sense, we are able to assume that U (goodness) > 0, and U (badness) < 0), moreover, in order to have the payoff matrix as simple as possible, we let U (p) = p. Thus, the payoff matrix is

      X

      Goodness Badness

      Goodness 100+U(G)/ 100+U(G) 150+U(B)/-200+U(G)

      Y

      Badness -200+U(G)/ 150+U(B) -50+U(B)/ -50+U(B)

      The condition of choosing goodness is individual X’s dominant strategy is;

      100+U(G) > 150+U(B) and -200+U(G) > -50+U(B)

      .i.e. U(G) ?C U(B) > 150

      same as Y’s

      The condition of choosing badness is individual X’s dominant strategy is;

      100+U(G) < 150+U(B) and -200+U(G) < -50+U(B)

      .i.e. U(G) ?C U(B) < 150

      same as Y’s

      Thus, the condition for Goodness vs. Goodness being dominant strategy equilibrium is

      U(G) ?C U(B) >150

      And the condition for Badness vs. Badness being dominant strategy equilibrium is

      U(G) ?C U(B) < 150

      It’s clear that Badness vs. Badness is more likely to be dominant strategy equilibrium than Goodness vs. Goodness; however, Goodness vs. Goodness still has some chance to be dominant strategy equilibrium as well.

      The condition for Goodness vs. Goodness being Nash equilibrium is

      U(G) ?C U(B) >50

      And the condition for Badness vs. Badness being Nash equilibrium is

      U(G) ?C U(B) < 150

      所以,出现那种equilibrium 取决于U(G)?CU(B)。当U(G)?CU(B)非常小,比如,小于50,即人们没有起码的道德底线,或不遵守道德底线的代价非常小,那么恶意对恶意占绝对上风,反之,如果U(G)?CU(B)非常大,比如大于150,即人们的道德水准非常高,常常以德服人或以德报怨,或不遵守道德底线的代价非常大,那么善意对善意会占绝对上风。如果U(G)?CU(B)适中,那么别人怎样对我,我就怎样对别人,就会占上风。根据统计学,我们知道第三种情况的例子占大多数,所以常看见的就是以牙还牙,以眼还眼,人敬一尺,我敬一丈的情况。

      我觉得道德在经济活动中无足轻重,关键在于完备的regulation。好像跑题了,就这儿吧。呵呵

      • 家园 精当!顶芥教授一下!
      • 家园 jlanu果然有很深研究,

        道德的效用可以做为一个变量出现,也可以体现在参与者根据利益计算结果采取的决定中.比如只要利益大, 就愿意用恶意去交易,则说明道德的效用对此人很低。

        我们的区别是:你是个教授,要把简单的事情复杂化以接近现实;我相反,要把复杂的事情往简化,以便于行动。

        • 家园 他还不是教授呢

          闹死了,他没事儿就在我耳边唠叨,等他当上教授,就亲自从美国飞回来给我送offer,说不去还不行,谁让我是Harvard美女博士Ting最合适的接班人呢?

          真烦,做个聪明又美丽女人也够累的

        • 家园 如果对象是firm或organization,风雨兄的分析有道理

          不过如果是individual,效用分析是不能忽略的。因为在现实中,profits maximize是无法完全解释individual behaviour的,比如铁齿铜牙金不换、不吃嗟来之食,有或生死是小,失节是大这类人的行为,如果用利益最大化,是不好解释的。

          utility funcation是从individual behaviour到Individual preference,最后再将Individual preference量化而得到的,是以现实为基础,而不是凭空杜撰的。

          “道德的效用可以做为一个变量出现,也可以体现在参与者根据利益计算结果采取的决定中.比如只要利益大, 就愿意用恶意去交易,则说明道德的效用对此人很低“

          风雨兄的分析中不是就用的是效用吗,呵呵。风雨兄的那段话,可用个简单的数学公式表达

          u(利益、善意、恶意)=u(利益)+u(善意)+u(恶意) (1)

          (u(善意)〉0,u(恶意)〈 0)

          个人的效用我们无法观察到,但最后的结果却能看见。,比如观察到的结果是恶意,那么u(善意)=0,(1)可写为u(利益、恶意)=u(利益)+u(恶意)。

          我们的结论就是对个人而言要么是利益太大,要么是道德水准太低。只侧重考虑一方面,是不完备的。

          最后想说的是,我非常欣赏风雨兄的文笔和立意,一向引为知音,呵呵。风雨兄的这篇文章真的不错,我只是觉得风雨兄可能陷入了一个误区,所以写了一些东东,希望能够有所帮助。其实对我也是一个促进,呵呵

分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河