西西河

主题:对ChatGPT的几点思考 -- 唐家山

共:💬175 🌺1562 🌵7
全看分页树展 · 主题 跟帖
家园 最近看了三篇文章,对GPT的看法有了改变

第一篇是微软研究院的GPT-4的评估文章,英文版链接见

Sparks of Artificial General Intelligence: Early experiments with GPT-4

我引用的是中文翻译版

通用人工智能的火花:GPT-4的早期实验

里面有如下值得关注的地方:

1. 执行伪代码。编译和执行用编程语言编写的代码很容易,但这也要求严格遵守语法和语义。编译器无法处理模糊或非正式的表达,或自然语言对功能的描述。相比之下,我们要求GPT-4执行图3.8中复杂的伪代码,注意到它能够执行并解释每一步(包括递归)。ChatGPT是不能执行的,尽管它看起来能够解释每一行代码。在下面的例子中,GPT-4正确地解释了合并数组函数(merge array function)的非正式描述,该函数将两个数组合并为一个包含缺失元素的数组。它还理解了以粗略方式定义的递归函数rec。值得注意的是,GPT-4直接执行代码,而不需要将其翻译成其他定义良好的编程语言。这证明了AGI模型作为一种用自然语言编程的新工具的潜力,这可能会彻底改变我们未来的编码方式。

在GPT-4上以零样本的方式运行用于大数乘法的图标伪代码。代码要求GPT-4更新并记住大量步骤的数组状态。我们观察到,尽管GPT-4被训练为(非精确)自然语言模型,但在超过50次更新后,它几乎可以正确地保存代码的状态。

这一点超出了我的预期。GPT-4似乎可以直接在概念上进行编程。如果为真,应该是具备了一定的思维能力。

模型在多大程度上展示了数学上的“真正理解”?

数学理解有几个方面:

1. 创造性推理:识别每个阶段哪些论据、中间步骤、计算或代数操作可能相关的能力,以便绘制出通往解决方案的路径。这一组成部分通常基于启发式猜测(或在人类的情况下,直觉),通常被认为是数学解决问题中最实质性和最深刻的方面。

2. 技术熟练:能够按照规定的一组步骤进行常规计算或操作(例如微分一个函数或在一个方程中隔离一个项)。

3. 批判性推理:批判性地检查论证的每一步,把它分解成子部分,解释它需要什么,它与论证的其他部分有什么关系,以及为什么它是正确的。当解决一个问题或产生一个数学论证时,这通常与当意识到某个步骤是不正确的时回溯并相应地修改论证的能力结合在一起。

GPT-4的表现如下:

创造性的推理。当涉及到高级高中水平的问题(偶尔更高水平)时,该模型在选择正确的论点或路径以获得解决方案方面表现出了高水平的能力。为了将这一点与上面的例子联系起来,模型正确地选择了在原问题中尝试并写出递归关系,并在后续问题中讨论多项式的复合次数。在这两种情况下,建议都是在“知道”这条路径是否会导致正确的解决方案之前提出的。4.2节和附录D包含了更多的例子,展示了模型在这方面的能力,我们将其与一个优秀的高中生甚至更高的学生进行比较。

技术熟练程度。虽然该模型清楚地展示了对与不同程序(如求解方程组)相关的算法的高度知识,但它在执行这些任务时也会非常频繁地犯错误,例如犯算术错误、混淆运算顺序或使用不正确的符号。我们在附录

D.1中进一步讨论了这些典型错误的一些例子。我们推测,这方面可以通过给予模型代码执行权限来改进,这将允许它更准确地执行计算或检查等效性;在附录D中提供了一些证据。

批判性推理。该模型在第三方面表现出显著的不足,即批判性地检查论证的每一步。这可以归结为两个因素。首先,模型的训练数据主要由问题及其解决方案组成,但它并没有捕捉到表达导致解决数学问题的思维

过程的措辞,在这个过程中,一个人进行猜测、遇到错误、验证和检查解决方案的哪些部分是正确的、回溯等。换句话说,由于训练数据本质上是对解决方案的线性阐述,在这些数据上训练的模型没有动机进行“内在对话”,即重新审视和批判性地评估自己的建议和计算。

GPT-4的表现也令人吃惊。个人感觉加上一定程度的”负反馈”后,GPT将来有可能完成数学意义上的理解和推理。当然这种"负反馈"会带来很多极端困难的问题,比如”推理发散”。但是目前已走出决定性的一步。

第二篇论文是新浪微博技术负责人张俊林的报告

ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?

这个报告给出了GPT类的AI具有初步推理能力的一个解释。里面主要说了三件事,有限现象,思维链和顿悟现象。

第二类具备涌现现象的技术是思维链 (CoT)。CoT 本质上是一种特殊的 few shot prompt,就是说对于某个复杂的比如推理问题,用户把一步一步的推导过程写出来,并提供给大语言模型(如下图蓝色文字内容所示),这样大语言模型就能做一些相对复杂的推理任务。

我们首先解释下什么是顿悟现象。如上图所示,对于一个训练数据较少的数学任务(通常是数字求和取余数的问题),研究人员发现一种新奇的现象。比如我们将数据集切成两块,50% 数据作为训练集(图中红线展示了随着训练过程往后走,任务指标的变化情况),50% 的数据作为验证集(图中绿线的走势展示了训练动态)。在学习数字求和取余这个任务时,它的训练动态会经历三个阶段:

第一个阶段是记忆期:红线对应的训练数据指标突然走高,代表模型记住了 50% 的训练数据的结果,而绿线对应的验证集指标接近 0,说明模型完全没有泛化能力,就是说没有学会这个任务的规律。所以这个阶段模型只是在单纯地记忆训练数据。

第二个阶段是平台期:这个阶段是记忆期的延续,体现为验证集合效果仍然很差,说明模型仍然没有学会规律。

第三个阶段是泛化期:这个阶段验证集合效果突然变好,这说明突然之间,模型学会了任务里的规律,也就是我们说的,出现了顿悟现象,突然就学明白了。

GPT的涌现和顿悟现象表明GPT具有了某种程度的概念记忆和理解能力。

最后是我在鼎盛上看到的一个帖子,现在找不到了,等以后找到再补充来源。其中的一个观点很有意思,说人的推理实际上是一种似然推理。GPT类的AI在规模达到一个临界点后学会了似然推理。这种推理在大多数情况下都是有效的。所以GPT具有一定理解和推理能力也是可能的。

通宝推:zwx650,破鱼,白马河东,川普,心有戚戚,桥上,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河