主题:【原创】语言是载体 -- Swell
- 共: 💬 11 🌺 31
很早前,至少15年前吧,我印象中就有过关于中英文比较的文章,你所提到的那篇主题帖爆论的内容,大部分我那个时候就看到过。
现在这个议题突然火起来(国内观网同步也有很多讨论),原因应该是跟AI进展相关。譬如
OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?
o3-mini-high作为美国最顶尖的模型之一,竟然在没有用户干预的情况下,如此大量地使用中文进行推理。
更有意思的是,即便用俄语去提问,o3-mini-high也会用中文去思考。
文中还给了两种解释:
阿尔伯塔大学助理教授、AI研究员Matthew Guzdial提出了一个切中要害的观点:
「模型并不知道什么是语言,也不知道语言之间有什么不同,因为对它来说这些都只是文本。」
Hugging Face的工程师Tiezhen Wang认同Guzdial的看法,认为推理模型语言的不一致性可能是训练期间建立了某种特殊的关联。
他通过类比人类的思维过程,阐述了双语能力的深层含义:掌握双语绝非仅仅局限于能够流利使用两种语言,更是一种独特的思维模式。在这种模式下,大脑会依据当下的场景,本能地挑选最为适配的语言。例如,在进行数学运算时,使用中文往往简洁高效,因为每个数字仅需一个音节;而在探讨「无意识偏见」这类概念时,大脑则会自然地切换到英文,这是由于最初接触该概念便是通过英文。
类似这种讨论,在DS推出后,就变得更普遍了。毕竟,DS算法的核心目前并不为人所知,是否是因为【中文工具】的原因呢?
所以后面也就有了陈经的这篇文章:
4. 近期大模型让全球进一步认识到了汉字的优势,有的西方大模型居然用汉字思考了。不少西方人惊讶,在受到严重限制的情况下,中国居然迅速在大模型上取得了突破。有的西方使用者评论说,deepseek在英文“创意写作”上表现极好。这是汉字体系优势的另一个表现,而且更为本质。
5. 汉字表意,不仅有二维的整体特性,在“词元”token之间的关联上,与英语等线性文字体系,有截然不同的拓扑结构。大模型最大的任务就是为各种词言的词元建立关联权重,汉字明显有优越性,关联更有逻辑,如猪肉、牛肉、鸡肉,一月、二月、三月,关联非常自然,在英语里却全是看上去没有相关性的词。而且汉字能够轻松扩展包含融合进新概念,不需要发明新字,甚至可以减少许多字。汉字体系是“先难后易”,学会了随便看点什么知识水平就不断进步,而西方社会容易产生知识非常贫乏的人,很多成年人阅读理解能力相当成问题。
6. Deepseek的性能进步,除了大模型数据结构、训练算法、代码优化,新闻里没有说的,是对中文训练数据的整理、评估。业界传Deepseek非常重视数据标注,梁文锋自己都来打标,请北大中文博士来打标。高质量的数据,就象严师,让Deepseek R1有了非常强大的中文能力。它似乎以中文思维为底座,有了不一样的灵活思维,群众普遍反应和以前的大模型不一样。即使用英文输出,在创新写作上也能表现出能力。
7. 因此,Deepseek取得性能突破,很可能受益于中文体系。一个简单的事实是,只有中文和英文能够以自己为主,构建对人类知识体系的完整理解。许多语言甚至连科学词汇都没有,生造新词也不行,还不如改学英文或中文。
以上应该是这次关于中英文比较的一些背景。
=====================================
话说回来,100年前,国家积贫积弱的时候,讨论的是中文这种语言是否应该淘汰或者放弃,改为拼音语言。
甚至40多年前,计算机刚兴起的时候,因为汉字输入的问题,也曾经讨论过是否应该放弃汉字转用拼音。
而AI刚开始发展的时候,显然中文的语音识别、图像识别等等,远比英文更复杂。也不会有人讨论中文相对英文的优越性。
所以当下的讨论,虽然一开始仅仅是对于【语言作为AI发展的工具】优越性来做的,其实已经包含了部分【民族及文化自信】在里面。
我本人看法没那么复杂:英文虽然不是很熟练但好歹也是读过大学的人,一般的英文文章能自己看,专业点的,借助翻译助手也没太大问题。中文就更不必说了。
所以本人的自我感受:陈经文章中非AI的部分,我是完全赞同的。AI相关的部分,有限怀疑,但内心深处认为【二维编码】的中文,在AI推理效率上胜过一维的英文,逻辑上没有问题。
- 相关回复 上下关系7
🙂我还以为他要说【我有不止一辆汽车】 1 chuchong 字36 2025-02-20 00:48:27
🙂这个说法不符合客观事实 2 爱情 字564 2025-02-19 16:40:45
🙂西海岸的办法有趣 3 自以为是 字326 2025-02-19 02:31:59
🙂语言既是载体,也是工具。
🙂并不止于此,普通人仍停留在语言沟通方便,文字传承言简意赅,可 1 自由呼吸F0 字483 2025-02-19 08:37:47
🙂对于计算机来说,汉语没了难入门的问题 1 桥上 字312 2025-02-19 04:31:45
🙂幼儿园阶段就是只认字不写字嘛 5 贼不走空 字502 2025-02-19 01:37:06