西西河

主题:旧金山 -- 胡里糊涂

共:💬2741 🌺26331 🌵509
全看分页树展 · 主题 跟帖
家园 一篇论文,旁佐证葡萄说的“人是数字社会第一因”

今年5月,arxiv上有篇论文《THE CURSE OF RECURSION : TRAINING ON GENERATED DATA MAKES MODELS FORGET》。(2305.17493)

文章的主要观点是:对于训练大型语言模型(LLM)而言,真正的人工生成内容必不可少。人类与LLM互动的数据将越来越有价值;LLM生成的内容会污染训练数据集。

GPT-4这样的大型语言模型(LLM)是在人类创造的文本上进行训练。由于LLM已经达到生成文本的水平,那么,未来LLM使用的训练数据很可能包含它们前辈模型生成的文本。

论文研究了用AIGC生成的文本训练下一代LLM时,会发生什么。例如,由GPT的一个版本,形成下一代模型的大部分训练数据集。随着迭代的增加,会导致GPT-n代模型的崩溃。最初是尾部消失,随着时间的推移,开始丢失关于数据真实分布的信息,经过几代的学习,行为开始收敛到一个方差非常小的点估计。这个过程是不可避免的。

说人话就是, LLM喜欢陈词滥调。比如,写一个青春偶像剧。男、女主可以在教室、图书馆、星巴克、校外的山坡上等等不同的地方认识。十个人写,估计会有七、八种可能。LLM进场了,它发现之前的文本中男、女主在星巴克认识的比较多,于是它认为男、女主认识的地点概率最大的是星巴克。所以,它,以及后来用由它生成的文本进行训练的下一代“它”,都会将男、女主认识的地点安排在星巴克。

这就是所谓的,模型收敛到一个方差非常小的点。

所以,论文认为,为了避免模型崩溃,访问真正的人工生成内容是必不可少的。模型训练需要使用真实人类生成的数据(文本)。LLM生成的内容将污染训练数据集。而人类与LLM互动的数据将越来越有价值。(当然,)

所以,这篇论文以技术的角度旁证了葡萄说的“人是数字社会第一因”。

考虑到,今后五年,人类生成文本的效率再高,也无法超过之前上千年积累的文本数量,所以我判断,GPT4出道即巅峰。在AIGC时代,对原创内容的需求不会减少,变化的只是生产的效率。学习LLM,如同当年学习word一样,它只是我们工具箱中另一件更有用的武器一样。

余华说,不管怎样,反正GPT4是淘汰不了他。

通宝推:桥上,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河