西西河

主题:孩子回国比较一下才明白大陆学生比海外华人的小孩平均差了十万八 -- forger

共:💬201 🌺1045 🌵43
全看分页树展 · 主题 跟帖
家园 在目前AI训练中更加体现了汉语的优越

正如陈王所说”掌握1000个字可以应付日常交流,认识6000个汉字的已经击败99%的人。小学三年级阅读报纸没有任何障碍“,同样的表达内容中文版的联合国文件永远是最薄的。举一个简单的例子:同样是没有任何军事常识的人,中国人看到护卫舰、驱逐舰、巡洋舰就会知道大概都是军舰,而说英语的人看到Frigate、Destroyer、Cruiser未必知道它们是什么,之间有什么共性。

查一下牛津词典可知:

《牛津英语词典》(Oxford English Dictionary;OED)习称《牛津大词典》[2],是由牛津大学出版社出版的20卷词典,截至2005年11月30日,该词典收录了301,100主词汇,字母数目达3亿5千万个。词典亦收录了157,000个以粗体印刷的组合和变形,以及169,000个以粗斜体印刷的短语和组合,令词典收录的词汇达到616,500个。另外,词典共列出137,000条读音、249,300个词源、577,000个互相参照和2,412,400句例子

包括英语在内的字母语言,由于造词方便,所以制造新词汇成为一种随意而为的时髦行为。但是都是随着社会发展的复杂性,英语词汇已经庞大到匪夷所思的地步,比如牛津词典收录的英语主词汇已经有30多万个,一个人想掌握几十万词汇是完全不可能的,因此形成的语言壁垒达到了非专业人士已经完全不能理解该专业的特有词汇的地步。

在AI训练的难度上,中文导致的歧义也远远领先于英语,比如Mouse,如果不结合上下文,你很难知道说的是“老鼠”,还是”鼠标“。随着大模型规模增大,英文相比于中文的难度就会指数级增大,需要的算力还有电力相比中文版也都是巨量,成本也会更大。今后的智能社会基础设施建设中文的优势只会越来越明显。

通宝推:时间的影子,秦波仁者,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河