主题:358-Ella Qiawen Liu:为什么香蕉好像多云 -- 万年看客
https://www.youtube.com/watch?v=DkiCE8rBi9k&list=PL4i9YSoIJiPeWWDfOimNzy08bFl_pX8Zl&index=44
Why is Banana Like a Cloudy Day // Ella Qiawen Liu
我们的知识体系可以告诉我们,医生与护士有哪些相同之处——两者都是医务工作,或者钢琴与小提琴有哪些相同之处——两者都是乐器。问题在于人们是否能够理解分属不同场域的对象之间的相似之处。实验证明,当受试者被询问“假如某种工作是乐器,那么会是什么乐器”时,最常见的回答是“医生是钢琴,护士是小提琴”。我们不仅可以体会分属两个物体场域的对象之间的相似性,还可以体会分属两个感官场域的对象之间的相似性。假如你属于具有色彩-音乐通感的少数人,那么你看到色彩就会听到音乐,反之亦然。我们其余大多数人并不具备通感,但是我们依然会出于本能地觉得搭配某一幅画作的音乐是否合适。
我的第一个问题是,当我们要用一个场域来映射另一个场域时,我们究竟做了什么。这个问题将主要依靠描述性的实验数据来回答。第二个问题是,为什么我们会觉得某些映射关系比其他关系更加自然?为什么医生更像钢琴而不是鼓?为什么梵高笔下的金色阳光看上去更像法语名曲《Non, je ne regrette rien》而不是重金属摇滚?第三个问题是这种直觉来自哪里?——我认为主要的潜在来源是语言。第四个问题是我们为什么能够进行跨场域映射?在这里我要讨论跨场域映射的实际应用,并且介绍一下我们正在开展的研究。我希望你们今天的反馈能为这些研究提供助益。
先来看第一个问题:如果X是Y,那么Y是什么?比方说,如果科学是一种颜色,那么会是什么颜色?40%的受试者说是绿色。这并不是因为绿色本身很常见,因为如果让受试者随口说一种颜色,只有16%会说绿色。换句话说,绿色的基线收敛/baseline convergence是16%。再来一个:如果大提琴是一种天气,那么会是什么天气?20%的受试者说是多云,排名第一,而多云的基线收敛只有3%。实际上排名靠前的几个答案全都不是晴天——雨天、雷雨天、大风天、阴天等等。最后一问:如果哲学是一种饮料,那么会是什么饮料?20%的受试者说是茶水,排名第一,而茶水的基线收敛只有5%。排名靠前的其他答案包括清水、红酒与咖啡。
为什么?为什么人们会认为某个X特别般配某个Y?我们要求受试者解释他们的回答。比方说如果熊是一种饮料,那么会是什么饮料?有人说是啤酒,因为bear与beer就差一个字母。我们将这种映射称作音韵联系/phonological association。但是同一个答案还可以得到完全不同的解释。比方说熊很坚强,很野性,很爷们,让人联想到啤酒。这样的映射被称作抽象对齐/abstract alignment。映射还可以基于词语联系/word associations,比方说如果北京是一种颜色,那么会是红色,因为“红色”与“中国”这两个词经常一起出现。如果下雨天是一种乐器,那么会是鼓,因为下雨就会打雷,而雷声很像鼓声。这样的映射叫做感知相似/perceptual similarity,既人们会以同样的方式来感知X与Y。如果晴天是一种水果,那会是苹果,因为苹果成长在夏天,而夏天经常烈日高照。这里苹果与晴天通过夏天建立了联系,这样的映射叫做共同媒介/common mediators。还有些情况下,经常出现在同一语境当中的X与Y不需存在任何语言关联也会产生映射关系,这叫做主题联系/thematic associations。比方说如果狗是一种运动,那会是扔飞盘。最后,有时人们自己也说不清为什么要这样映射。比方说如果数学是一种颜色,那会是黑色。受试者对于这个答案的常见解释包括“我猜的”、“我不知道”、“我首先想到黑色就这么说了”。我们将这样的映射统统归类为猜测。那么以上这七种映射方式的出现频率高低如何?画面上图表的横轴是七种映射方式,纵轴是每种映射方式对应的答案数量。根据量化数据得出的第一个结论是,抽象对齐——“熊很爷们,啤酒也很爷们”——是人们在进行跨场域映射时最主要采用的策略。这一策略是压倒性的第一名,足足对应了700多个答案。排名第二的共同媒介还不到300个。
那么假如人们要在感官场域之间进行映射,他们又会怎么做?比方说假如巴赫的音乐是一种颜色,那么会是什么颜色?我们让受试者听一段巴赫的《勃兰登堡协奏曲》,然后在色谱上挑出最符合与最不符合这段音乐的颜色。受试者的选择很一致:暖色浅色——浅黄、浅紫、浅蓝——符合这段音乐,冷色深色——黑色、灰色、大红色——不符合这段音乐。接下来再来一段渐进浩室电子乐。这一次受试者普遍认为大红、深紫与深蓝符合这段音乐,深灰、浅灰与黑色不符合。我们将音乐分解成十五个维度,又将音乐对应的颜色分解成四个维度:深浅、红绿、蓝黄、饱和度。十五个音乐维度则包括协调与否,旋律有无,音调高低,配器多少,音域宽窄,节拍强弱等等。实验结果表明,受试者惯于将协调音乐与浅色、绿色、不饱和色联系起来;音乐节奏越快,对应的颜色越红、越黄、越饱和;越是强而有力的音乐对应的颜色越红越饱和,不过却并不特别黄。
那么为什么某些映射比其他映射让人感觉更自然?为了回答这个问题,我们同时采用了两种提示词,首先是刚才提到的“如果X是Y,那么Y是什么?”让受试者自由回答,比方说“如果小偷是一种动物,那么会是什么动物?”;其次是限制性更大的“‘如果X是Y,那么Y是Z。’你觉得这个映射好不好?”,比方说“‘如果小偷是一种动物,那么会是老鼠。’你觉得这个映射好不好?”我们试图用相似性矩阵来预测受试者的表现。衡量相似性的方法之一是看看两个词在词语联系网络上的距离。比方说“如果小偷是一种动物,那么会是老鼠”。在词语联系网络上,从老鼠到小偷之间隔着两个节点:rat/老鼠/内奸——snitch/告密——snatch/攫取——thief/小偷。因此尽管老鼠与小偷之间没有直接联系,老鼠依然是距离小偷最近的动物。我们可以在这张网络上从任意一个词出发进行随机漫步,以此来确定任意两个词之间的相似性。根据Small World of Words网站提供的模板,我们为受试者提供一个提示词,让他们说出首先想到的三个词,例如听到苹果首先想到水果、桔子、医生。这三个词又会被我们提供给其他受试者当作提示词。根据这种提示-回应算法,我们得以建立了天然的词语联系网。
另一种体现相似性感知的手段是兰开斯特感觉运动规范/Lancaster sensorimotor norms,换句话说就是一个词会让你在多大程度上产生关于嗅觉、触觉、听觉等等感官维度的联想。将各种感官维度围成一张多维图,在其中勾画出老鼠与小偷这两个词各自的形状,然后看看两个形状的重合面积有多大,重合面积越大则相似性越高。我们还可以通过计算词嵌入/word embeddings的相似性来确定两个词是否具有相似的语义联系。所谓词嵌入指得是将一个词转变为高维向量,这个向量的每一个参数都代表这个词在某一项词义维度上的位置,所有这些参数的总和则体现了经常出现这个词的语境。在这个由语料库构建的多维坐标系当中,两个向量越接近,它们各自代表的词语就越相似。
最后,我们要如何为抽象对齐建模?怎样用模型来体现熊与啤酒都很坚强,很野性,很爷们?我们采用的方法是语义投射/semantic projection。比方说我们可以设定可喜-可恶这一维度,一侧摆上各种动物,另一侧摆上各种职业,让受试者按照可喜与可恶的程度分别排序。可喜这一头按照递增的可喜程度是蜜蜂、浣熊、鸽子与猫/教师、医生与护士;可恶那一头则是老鹰、鳄鱼、蛇与老鼠/牙医、教士、间谍与小偷。排位接近的两个词要比排位疏远的两个词更相似。在老鼠与小偷的案例当中,我们设定了21个抽象维度,然后将两个词的维度参数投射到同一片空间,可以看到两个词各自对应的图形形状虽然不是一模一样,至少也大抵重合。
那么我们依据什么标准选择了这21个维度?这套维度来自半个世纪之前心理学家查尔斯.奥斯古德/Charles E.Osgood的一项经典研究。他要求受试者在各种维度上为词语打分,比方说给狗在好-坏维度上打分。他测试了几百个词语与几百个维度,然后发现在各种不同的文化、语言与语义场域当中,语义维度总会反复聚合成三大类。首先是评价类/evaluation,包括好-坏、贵-贱、美-丑等等;其次是效能类/potency,包括弱-强、软-硬、轻-重等等;再次是行为类/activity,包括懒-勤、慢-快、被动-主动等等。除了这些主要维度之外,我们还选取了一些并不能显然归于三类之一的维度,例如大-小、干-湿、雄-雌、宗教-世俗、冷-热、老-少等等。确定了维度之后,我们又选取了三大场域的词语,包括56种动物,54种工作与28种乐器。
以下是我们的实验结果。哪些因素可以预测跨场域对齐?画面左边的图表体现了不同的预测因素能在多大程度上预测受试者的自由反应——“如果X是Y,那么Y是什么?”,画面右边的图表体现了不同的预测因素能在多大程度上预测受试者对于给定映射的对齐程度的评估——“‘如果X是Y,那么Y是Z。’你觉得这个映射好不好?”首先是自由回答恰好提到Z的基线收敛概率——“随便说一种颜色”的回应是某种特定颜色的概率。这里给出的回答肯定是某个场域当中最典型的成员——“绿色”——因此我们要专门将其挑出来作为对照组;令人意外的是,词语联系搭配随机行走在两方面都具有极强的预测能力;在控制了全部其他变量的前提下,综合排名第二的是基于维度相似性的抽象对齐,意味着在抽象维度上对齐的概念能够更好地相互映射;词嵌入相似性可以有效地预测对于对齐程度的评估,但是预测自由反应的效力则很有限,或许是因为词语联系与词嵌入在很大程度上基于同一套变量,因此当两者同时出现在模型当中时,词语联系就会排挤掉词嵌入;最后,感知相似性几乎无法预测自由反应,预测对齐程度评估的效力也很弱。
此外大家应该注意到了,基于维度相似性的抽象对齐在预测对齐程度评估方面的表现优于其他预测因素,但是在预测自由反应时的表现只能排第三或者第四。这样的差距从何而来?莫非受试者在自由反应时不那么使用抽象对齐?是不是他们只有在被迫解释稀奇古怪的映射关系时才会倚赖抽象对齐?为了回答这个问题,我们可以看看自由反应与对齐程度评估这两项实验各自的整体数据。刚才我提到了,在自由反应实验当中,抽象对齐是受试者最主要采用的跨场域映射策略。但是就平均收敛而言,抽象对齐的表现却只能排在倒数第二,甚至低于猜测。相比之下,感知相似策略与词语联系策略虽然很少得到运用,但是平均收敛却高得多,换句话说这两种策略对应的相似性范围更狭窄。问题的答案越是显而易见,受试者的回答就越倾向收敛。就词语联系而言,当被问及“假如奶牛是一种饮料,那么会是什么饮料”时,90%的受试者都回答了“牛奶”;就感知相似而言,当被问及“假如雷雨是一种乐器,那么会是什么乐器”时,绝大多数受试者都回答了“鼓”。由此可见,感知相似策略与词语联系策略的基础是大多数人都认同的共识。但是在运用抽象对齐策略时,不同的人们对于某个词在各个维度上的权重往往意见不一,映射到其他场域的答案也五花八门,拉低了平均收敛。
以上是跨越语义场域的映射方式。那么在跨越感官场域时人们又会如何映射?我们的假设是人们会采用类似的策略,首先将色彩与音乐投射在同一个语义空间,然后根据距离远近来进行映射。实验结果表明,虽然人们要用不同的感官来感知音乐与色彩,但是两者对应的语义维度却多有重合,例如沉稳-悸动、弱-强、安静-响亮、被动-主动等等。我们发现受试者会用语义维度更接近沉稳的颜色来映射更接近沉稳的音乐,悲伤映射悲伤,弱映射弱,等等。总而言之,颜色与音乐的语义相关性的平均系数达到了0.7。我们还可以进一步将颜色与音乐的映射关系分解成一致与不一致。在画面右边的图标上,一致的、或者说正相关的色彩与音乐组合用红色表示;不一致的、或者说负相关的组合用蓝色表示。可以看到,在每一个语义维度上,一致组合与不一致组合的相关性系数都大致相当。
接下来我们想要探索人们在色彩与音乐之间建立映射时采用的策略。试验结束后我们询问受试者,他们为什么要将某种颜色与某种音乐联系起来。常见的回答分为以下几类。“当我听音乐时,一种或者一系列颜色自然而然地出现在我的脑海,于是我选择了备选答案当中与之最接近的颜色”;或者“我凭本能选的”;又或者“我猜的”。与这些人相对,另一些人的策略更偏向分析。“我思考了音乐与颜色的情绪内容(快乐或者悲伤)”;“我思考了哪些形容词可以同时用来形容音乐与颜色(野性或者神秘)”;“我想象了经常演奏此类音乐的环境,以及与此类环境相关联的颜色”。选择后一类策略的受试者更倾向于积极地为颜色与音乐之间的关联性寻找依据。这些依据可以是情绪、描述或者环境语境。问题在于不同的策略是否会带来不同的后果?比方说策略不同的人们会不会显示出语义中介程度的高低?语义中介的定义是根据两者共有的语义——或者说根据两者的语义对齐程度——进行跨场域映射的倾向。无论是选择与音乐一致还是不一致的颜色,我们对于语义中介的建模方式都是将音乐的语义评分向颜色的语义评分回归。我们的假设是,音乐的语义评分越是能够用来有效预测颜色的语义评分,语义中介的效应就越大。
不过语义中介的效果也会被不同策略强化或者弱化。画面上图表的纵轴标注了刚才提到的各种策略,横轴是估计的系数。一致组合与不一致组合依然分别用红蓝两色表示。一致的颜色总体而言与音乐在语义维度上正相关,因此在选择一致颜色时,积极策略会在图表上加强语义中介的效应,消极策略则会弱化这一效应。实验表明,环境策略与情绪内容策略显著加强了语义中介的效应;语言描述策略令人意外地没有造成任何影响;猜测、脑海浮现与本能之类更加自发的策略则弱化了语义中介的效应。而不一致的颜色与音乐在语义维度上负相关——比方说受试者听到快乐的音乐,那么悲伤的颜色就是不一致的颜色。在选择不一致颜色时,反而是消极策略会加强语义中介的效应,而积极策略会弱化这一效应。不过这一回情绪内容策略与语言描述策略这样的评估性策略还是放大了语义中介的效应;猜测、脑海浮现与本能之类更加自发的策略依然倾向于减弱这一效应。说的通俗一点,无论是选择一致还是不一致的颜色,更加自发的策略都会减弱语义中介的效应,而更加评估性的策略则会放大这一效应。更加值得注意的是,评估性策略在评估一致与不一致颜色时的效果并不对称。报告称自己采用了评估性策略——即情绪内容策略与语言描述策略——的受试者在选择不一致颜色时显现出了比起选择一致颜色时更强的语义中介效应。这一差异暗示我们,确定某种颜色与某段音乐的一致性或者不一致性或许是两种不同的任务,后者的难度或许更大,因为后者是否定性的任务。准确指出颜色与音乐在哪个语义维度上有差别需要人们在复杂的多维语义空间当中缩小关注范围,而语言或许会成为完成任务的强大工具,因为用词语表述这一差别有助于我们简化评判不一致性的思考过程。
下一个问题:人们进行映射的直觉来自哪里?看起来人们确实具有关于概念乃至感官经验的直觉或者说原始的语义知识。实验结果也表明,单纯的语言学手段——例如词语联系或者词语嵌入——就足以有效地预测跨场域映射的结果。因此我们可以假设语言本身就是这种直觉的来源之一。为了检验这一假设,我们可以用语言模型为人们的语义学投射建模。首先我们可以采用词语嵌入的手段来建立一个语义多维度空间,而词语嵌入本身又完全基于语言学数据。以动物为例,各种动物在语义多维度空间都有自己的位置,但是所有这些位置都可以投射到小-大这一向量上面,这样一来这些动物就大抵完成了从小到大的排序。如果将基于词语嵌入的投射排序与人类凭感觉进行的语义维度排序比较一下,就会发现两者的相关性极强。
在最近的研究当中,我们还在探索不是人的能动主体——或者说大语言模型——怎样应对跨越感官场域的映射。换句话说,“如果X是Y,那么Y是什么”这个问题的X与Y都是感觉模式,例如嗅觉、视觉、听觉、触觉、饿、渴以及各种情绪。举个例子:如果体味是一种质地,那么会是什么质地?场域X是嗅觉,场域Y是触觉。假设人类受试者回答是砂纸,那么这样回答的原因往往是“因为体味令人感觉不舒服,就像粗糙的表面。”如果大语言模型的回答也是砂纸,那么原因则是“体味经常与令人不悦的粗糙感受相关联,类似于砂纸的粗糙触感。”我们可以针对这些回答进行句子嵌入——也就是将句子当中所有单词进行词嵌入并且取平均值——然后计算一下不同的人类对于此类问题的回答的平行相似性。问题由X场域与Y场域构成,因此我们将计算结果分成两张表,画面上方的图表代表X场域,下方代表Y场域。图表的横轴是各种感觉,纵轴是全体受试者的回答的平均相似性得分。可以看到,在Y不变的前提下,X无论是哪种感觉,全体受试者的的回答的对齐程度几乎都保持一致。但是在X不变的前提下,对于Y来说,视觉与触觉对应的答案对齐程度则显然高于其他感觉,或许是因为这两种感觉在英语当中对应的词汇更加丰富。相比之下,嗅觉对应的英语词汇量在各种感觉当中最少,或许正因为如此它所对应的答案的对齐程度也最低。不过真正令人惊讶的是,我们又将对比的对象改成了人类整体的回答与大语言模型的回答,结果图表的模式几乎没变。换句话说,大语言模型与人类对齐的程度相当于人类相互对齐的程度。
那么这其中的关系是相关性的还是因果性的?是不是因为受试者采用同一套语言来构建概念的抽象知识,所以才会有这么高的对齐度?还是说受试者通过现实体验获得了同样的经验,而语言仅仅反映了这一点?人类是具有多种感官的存在,因此从X到Y的路径很可能不止一条。比方说“假如体味是一种乐器,那么会是什么乐器?”大语言模型的回答是大号,“因为大号的音质深厚而又低沉,具有压倒性的气质;而体味同样可以十分浓烈,令人感觉受到压制。”人类的回答同样是大号,“因为大号的声音听上去好象放屁,而屁味与体味差不多。”答案虽然是同一个,通向答案的路径却完全不是一回事。因此问题在于我们能否针对语言所扮演的因果性角色提出更有力的主张?
简单来说,答案是“有可能”。回答这个问题的方法之一是研究那些先天缺少某种感官输入、无法通过感知来获取此类知识的人们。比方说我们可以询问先天盲人:“红色有多快?红色有多热?红色有多脏?”鉴于他们从来没见过红色,他们的回答与明眼人受试者相比会有什么区别?画面上的图表显示了一系列颜色在冷-热、脏-净、放松-紧张等等语义维度上的综合打分,每个圆点代表一组颜色与语义维度的组合,横轴是明眼人受试者的平均打分,纵轴是先天盲人受试者的平均打分。出乎意料的是,两组受试者的答案的相关性非常强,而且只要我们采用刚才提到的嵌入-投射方法的语言模型,两组人的回答都可以得到可靠的预测。
从这一结果出发,更进一步的问题是关于颜色的语义维度信息存储在了语言的什么地方?从更高层次来看,某些语料库包含的、用来学习颜色-形容词关系的数据会不会优于其他语料库?我们用语义投射法处理了基于若干语料库的词语嵌入,包括学术文献、电视新闻、报纸杂志、日常口语等等。对于测试结果的预测力最高的语料库——或者说标准化效应值最大的语料库——是当代美国英语语料库/COCA的小说版块。语料库的大小并不是关键:小说版块的语料总量只有1亿2000万单词,相比之下Open Subtitles的语料库有7亿5000万单词,爬虫抓取语料库的总量更是足足有6000亿单词。我们还使用了GPT4用来训练的语料库,这个语料库的大小没有公开,总之就是非常大,不过它的效应值依然赶不上小说。为什么小说语料库用来为颜色的语义维度联系进行语言模式建模如此有效?我们的猜想是小说当中充满了形式完整、意义完备的句子,覆盖的意义范围很广。而且小说还频繁采用明喻、暗喻与习语表达,其中包含了大量颜色的语义维度联系。
从更精细的层面来说——也就是从句子的层面来说,哪些信息要为颜色的语义投射负最大责任?为了回答这个问题,我们以各种不同方式逐渐移除用来训练模型的各个语料库的内容,看看移除了哪些信息会在最大程度上降低语料库对于人类受试者评分的预测效应,那么这些信息与模型通过语言进行学习的能力之间就应该存在因果关系。可能性之一是模型通过一阶联系进行学习,例如“火烧得红热。”颜色“红”与语义维度“热”出现在了同一个句子里。将这样的句子全都去掉之后,小说语料库的体量下降了大约1%。预测效应确实随之下降,但是下降得并不很显著。换句话说最关键的信息依然存在于语料库当中。可能性之二是模型通过二阶联系进行学习。二阶联系意味着颜色与语义维度并没有出现在同一个句子里,但是确实出现在了同一个语境里。因此我们又去掉了颜色与语义维度的临近词同时出现的句子,或者语义维度与颜色的临近词同时出现的句子。比方说“雪中森林一片白茫茫。”“雪”是语义维度“冷”的临近词,与颜色“白”出现在同一个句子里。去掉这些句子之后,小说语料库的体量又下降了3%。这一来预测效应的下降就比较显著了。
总结一下,当人们进行跨场域映射时,他们究竟做了什么?他们的映射结果的收敛程度高得令人意外。为什么有些映射比其他映射更自然?比方说为什么香蕉好像多云天气?——某位受试者是这么说的:“因为多云天气令人郁闷并且黏糊糊的,好像烂掉的香蕉。”——因为词语在抽象语义维度上的对齐能够可靠地预测跨场域映射的结果。导致映射的直觉来自哪里?语言是此类直觉与联系的来源之一。我们可以怎样运用跨场域映射?我们可以在宏观尺度上逐渐偏移刻板印象式的联系,具体做法则是策略性地将人们暴露在新颖的跨场域映射面前。此外,跨场域映射还有助于我们在科学领域提出新问题以及产生新假说。
感谢我的导师、我的合作伙伴、我的朋友以及我的实验室为上述研究提供的反馈与建议。谢谢大家。
如心属火,通小肠、目,主红色,离卦,南方,等等等。欧美人的A是红色这种synaesthesia,跟中国古人的比,太小儿科了。
给人感觉是试图简化世界,减轻大脑负担。
万事万物都可以归纳为金木水火土。