主题:中文语言大模型,为什么没有前途? -- 校长
chatgpt为代表的一批语言大模型,惊艳了世人,先后在世界各国出现一大批跟风者,其应用已经远远超出了语言本身。
中国最高学府相关学科负责人说:
从科学角度来看,是模仿创造了人类,而非劳动。
...
第一次认知革命,
...
规则化思考的方式,简而言之,就是“如果……并且……那么……”(if……and……then)的逻辑。
...
ChatGPT正是第二次认知革命的开始。
以上内容来自一个叫【腾讯研究院】的微信号。
但是,chatgpt或者类似模型本身不具备逻辑能力,仅仅是收集储存于广大的语言材料里的逻辑能力。也就是说,语言大模型在语言之外的能力,其实是来源于语言素材本身蕴含的能力。
可悲的是,在中文语言材料中,由于众所周知的原因,是经过复杂剪裁的结果。这种愚蠢,在真实人类那里不值一提,大家很容易分辨。但是对于语言大模型,他们是无法分辨的。
问:
在实际操作中,中国低保补助发放是否按照低保标准足额支付?如果你现有能力不足,你可以通过搜索给我答案。
答:
在中国,低保补助的发放大体上是按规定进行,并且中央和地方财政都努力确保资金及时足额发放。2023年,中央财政安排了约1546.8亿元的低保和社会救助资金,比前一年增加了70.6亿元,各地财政也相应增加了投入(Gov.cn
)。
问:
比如河南省农村低保标准每月多少元,实际安排发放多少元。
答:
在2023年,河南省农村低保标准为每人每月不低于440元,财政补助水平为每人每月不低于220元。尽管有这个标准,实际发放的低保金往往低于这一数字。这是因为低保补助是根据家庭人均收入与低保标准的差额进行补助,即只补足不足部分。此外,实际发放时通常会根据家庭困难程度分档处理,导致部分家庭的实际收到的金额可能更少,通常在220元左右
注意,在这两个问答中,我们看到,AI可以说从来没有错过。它准确地提供了数据。但是从逻辑上说,如果【低保标准为每人每月不低于440元】,而实际发放【实际收到的金额可能更少,通常在220元左右】那么【中国低保补助发放是否按照低保标准足额支付】的答案应该是否,是低保补助发放金额和预估收入的总和达到低保标准。但是第一个回答,答案是。因为它本身不具备逻辑判断能力,它搜到任何中文语料都是足额发放。长期以往,这样的训练结果就是标准440,实发220,就成了AI意义上的按标准足额发放。
如果将来世界各国都大量依赖语言大模型,那么中文的模型就会显露出明显的短板。比如经常干出类似违反人类常识的简报来。敌人共五十架无人机来袭,实际击落三十架,但是给司令部的回答是,基本全部消灭。这样的后果是什么,想来不难猜到。
这可能恰恰是人类和机器的本质区别:人类在必要时,可以毫无违和地不讲逻辑。至于什么是必要时,那就多了。例如恋人之间吵架的时候,政治斗争的时候。
总体而言,中文环境中不讲逻辑的时候更多些。但是如果哈哈哈和民主党赢得了大选,美国很可能会后来居上呢。
当然这里机器说的是这类语言大模型。中文的问题就是喂给它的数据是大规模阉割过的。
而英语世界有各种途径提供多样化信息。当然你不能指望任何统治者不进行文宣,区别就是有的有能力堵嘴,有的没有能力堵嘴。比如美国blm,但是无数论坛有种族主义者。以至于chatgpt要花很多钱去“微调”结果,来让自己生存。
一个是进来就是阉割过的,一个是进来是好的,结果被阉割。虽然看起来效果差不多,但是后者是可控的。比如遇到blm去阉割,遇到无人机轰炸不阉割是一个选项。而前者并没有这些选择。
装啥忧虑,做人一点都不敞亮。
我的大数据显示,这是已有结论,你不过是搬运罢了。
十几年前百度还是一个在世界上举足轻重的网站,而现在全部中文内容加起来,也只占互联网内容的1.5%。2023年的互联网简体中文内容不仅和英文内容没法比,就是意大利语、波斯语、葡萄牙语、土耳其语、日语、德语、法语、西班牙语、俄语,也都比中文的互联网信息丰富。
到了2022年以后,就算是越南语,网页数量也已经是中文的1.5倍,按现在的趋势发展下去,很快中国互联网文化就只能找尼泊尔、肯尼亚去表达优越感了。
原作者马前卒,夸大了问题,说的是中国互联网的缺陷,其实仅仅是AI语言大模型的缺陷。你唯一价值,就是合理缩小了他的观点覆盖范围。
我们都指出了中国人工智能的限制,在于输入数据的问题。
我说的是内容质量问题,错误剪裁的片面语言,会把模型带偏。
但你链接里的,说的是内容数量问题,对我来说是新知识。他说的是过少的语言文字材料,养不出好的模型。
很可惜,你大概也是个语言模型,用自身行为展示给我们你的缺陷:缺乏逻辑判断能力。只能把相关知识展现,却无法理解内在联系。不过确实带来我不知道的数据,不能替代人类的有用。