主题：中文语言大模型，为什么没有前途？ -- 校长

共:💬6 🌺28 🌵6

大浪淘沙

全看树展主题 · 分页首页上页下页末页

家园

中文语言大模型，为什么没有前途？

chatgpt为代表的一批语言大模型，惊艳了世人，先后在世界各国出现一大批跟风者，其应用已经远远超出了语言本身。

中国最高学府相关学科负责人说：

从科学角度来看，是模仿创造了人类，而非劳动。

...

第一次认知革命，

...

规则化思考的方式，简而言之，就是“如果……并且……那么……”(if……and……then)的逻辑。

...

ChatGPT正是第二次认知革命的开始。

以上内容来自一个叫【腾讯研究院】的微信号。

但是，chatgpt或者类似模型本身不具备逻辑能力，仅仅是收集储存于广大的语言材料里的逻辑能力。也就是说，语言大模型在语言之外的能力，其实是来源于语言素材本身蕴含的能力。

可悲的是，在中文语言材料中，由于众所周知的原因，是经过复杂剪裁的结果。这种愚蠢，在真实人类那里不值一提，大家很容易分辨。但是对于语言大模型，他们是无法分辨的。

举一个例子

问：

在实际操作中，中国低保补助发放是否按照低保标准足额支付？如果你现有能力不足，你可以通过搜索给我答案。

答：

在中国，低保补助的发放大体上是按规定进行，并且中央和地方财政都努力确保资金及时足额发放。2023年，中央财政安排了约1546.8亿元的低保和社会救助资金，比前一年增加了70.6亿元，各地财政也相应增加了投入(Gov.cn

)。

问：

比如河南省农村低保标准每月多少元，实际安排发放多少元。

答：

在2023年，河南省农村低保标准为每人每月不低于440元，财政补助水平为每人每月不低于220元。尽管有这个标准，实际发放的低保金往往低于这一数字。这是因为低保补助是根据家庭人均收入与低保标准的差额进行补助，即只补足不足部分。此外，实际发放时通常会根据家庭困难程度分档处理，导致部分家庭的实际收到的金额可能更少，通常在220元左右

注意，在这两个问答中，我们看到，AI可以说从来没有错过。它准确地提供了数据。但是从逻辑上说，如果【低保标准为每人每月不低于440元】，而实际发放【实际收到的金额可能更少，通常在220元左右】那么【中国低保补助发放是否按照低保标准足额支付】的答案应该是否，是低保补助发放金额和预估收入的总和达到低保标准。但是第一个回答，答案是。因为它本身不具备逻辑判断能力，它搜到任何中文语料都是足额发放。长期以往，这样的训练结果就是标准440，实发220，就成了AI意义上的按标准足额发放。

如果将来世界各国都大量依赖语言大模型，那么中文的模型就会显露出明显的短板。比如经常干出类似违反人类常识的简报来。敌人共五十架无人机来袭，实际击落三十架，但是给司令部的回答是，基本全部消灭。这样的后果是什么，想来不难猜到。

通宝推：疾走他乡爱故乡,

复中文语言大模型，为什么没有前途？

家园

这可能恰恰是人类和机器的本质区别

这可能恰恰是人类和机器的本质区别：人类在必要时，可以毫无违和地不讲逻辑。至于什么是必要时，那就多了。例如恋人之间吵架的时候，政治斗争的时候。

总体而言，中文环境中不讲逻辑的时候更多些。但是如果哈哈哈和民主党赢得了大选，美国很可能会后来居上呢。

复这可能恰恰是人类和机器的本质区别

家园

机器不思考，只统计

当然这里机器说的是这类语言大模型。中文的问题就是喂给它的数据是大规模阉割过的。

而英语世界有各种途径提供多样化信息。当然你不能指望任何统治者不进行文宣，区别就是有的有能力堵嘴，有的没有能力堵嘴。比如美国blm，但是无数论坛有种族主义者。以至于chatgpt要花很多钱去“微调”结果，来让自己生存。