西西河

主题:【整理】芯片败局 -- 拿不准

共:💬719 🌺8746 🌵288
全看分页树展 · 主题 跟帖
家园 语料虽然只是一方面,但对语言模型很重要 -- 有补充

大模型的所谓训练,语料(corpus,很喜欢语料这个翻译词)都与模型架构本身一样对模型的性能有决定性影响,这也是为什么开源大模型架构本身没有太大意义的原因,不但训练的耗材是个门槛,就是语料的选择本身都是未知数。

脸书meta开源的那个llama是连架构带参数一起给了,所以最大的门槛被解决了,而且原始版是没有经过政治正确调试的,可以胡说八道 😁 不过提起智商来比chagtp4差的不少。比如问题个”老张是小张的爹,老张与小张谁先出生的“,完了,就这么个问题十个模型可以给出三十种解答,而且90%没答对😄 这种模型用起来那叫一个不踏实。

就这么个开源模型,全世界从阿联酋到美国海军陆战队,都在抢着调试改进,唯一的好处是可以压缩小版本在手提电脑上用,甚至未来还可能在手机上用,不用联网自带十万个为什么,吸引力很大,不过智障也很显著 😁

当然这个政治正确调试不是唯一造成智障的原因,其他大模型比如绘画的那些,就比较不容易受到这些语言范围内的调试影响。

不过说起国内引进的话,llama比较现成的开源,参数与广大开发调试群体的数量庞大,类似linux,不用白不用。 这是对于一些本身资源有限的企业级应用来说的,你自己开发估计还赶不上llama的进步与应用配套的广度与深度。 当然大企业甚至国家级的资源,就另当别论了,自己完全可以从头干起,所有大模型与AI科研都可是有paper的,甚至开源的程序都可以找到,这些不是门槛,更有可能的是大企业自身就是这些进步的推手,比如谷歌,国内也有几家,但是大模型的科研与训练对自身资源的口袋深度是有很高要求的,确实不是一般企业玩得起的。

客观的说,国产大模型没有任何道理比OpenAI的差,但同理也无法解释谷歌的大模型为什么表现不如chatgpt4. 这里面包括了模型本身架构,基础计算设施,资源投入,训练方法,以及语料,除了第一条之外,后几条几乎都是不开源的,属于核心竞争力。其中尤其要重视语料的质量与选择,我前面说过llama开源后很多上万种各种调试,后期训练等,其中主要区别都是在语料方面,因为前期训练成本太高,一个30亿参数的袖珍版小模型就要投入上百万美刀的训练成本。但语料的提高可以得到非常明显的性能改善,这现在基本是公认的了。

中文语料的质量与选择无疑是个工作量要超过英语,本质上是文字信息在互联网与文献中的普遍以英文存在的原因。 相反在算法领域,在模型架构上,因为中国人才在AI科研领域的广泛参与,我个人认为可能还真不存在中美差距。 但是在后几个领域,因为看不到paper,而且基本上都是各家关起门来闷头干,所以很难估量。 不恰当的比方,类似闭源软件,你说中国的顶级企业软件水平与资源,就是从头开发个视窗 windows10操作系统,理论上应该是可以做到的,但是这么多年了不但中国全世界也没人干成这事,就那么看着微软得瑟。 说明这后面的工程量与难度还是很大的。

作者 对本帖的 补充(1)
家园 还有一个有利与国内的地方忘了提 -- 补充帖

就是那个copyright问题,目前是大模型领域的重大法律纠纷定时炸弹,chatgpt已经成了众矢之的,好几个大案都在筹备中,准备好好干一票。 这个问题的发展无疑会不但对OpenAI自身经营有重大影响,对大模型商业模式与性能调试,都是继政治正确紧箍咒之后的另一个重大转折点。然后,中国没有这方面的顾虑,虽然对走向西方市场有影响,但反正脱钩了,市场面向亚非拉,可以爽快的把知识产权这顶帽子甩得远远的了😁

欧美大环境目前是对AI非常不友好,从民间到政府,都有强大的怀疑不信任, 取代工作是主要担忧,当然大企业与资本是AI背后的强大推手,但在AI矛盾上会不会引发21世纪西方全球党控制以外的新一轮共产主义运动,这是个很有看点的地方。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河