主题:ChatAI 使用初体验(0) -- shuyong
免费试用阶段让人体验一下优质服务,后期收费肯定要对服务分级,不同收费对应不同准确度和全面性。
现在风风火火兴起的CHAT AI,确实有它们的独特价值。但是它们的价值并不是那些网红培训师吹嘘的那样,抓住了就一夜暴富,错过了就后悔终身。哪里会有这么简单的发财故事了。如果你相信说一句:“CHAT AI,你去给我赚一百万回来”,你就能躺着挣钱了,还不如相信《一千零一夜》里的“阿拉丁神灯”的故事。如果你要CHAT AI给你制定一个赚一百万的商业计划,那对这个发财计划,首先你相信么?其次,你能完全照着执行么?最后,你完全执行下来,你没赚到钱、反而亏了,你又能怎么样?所以赚钱这事,靠的还是自己的判断、自己的本事,别指望有人能替你挣钱。而CHAT AI就是一个新的有效率的辅助工具,有时候还不一定靠谱。
就我试用这一段时间,我觉得CHAT AI在学习知识方面能给我们提供独特的价值。通过你的提问,CHAT AI能体现你当前的学识水平。但是这不止是提问的水平这么简单,首先我们要有一个学习的愿望,好比如我们是一个运动员,原来跳高只能摸到篮板的边边,经过CHAT AI这个教练的不断培训,我们最终能摸到甚至抓住篮框了,CHAT AI这个教练固然功不可没,但是我们花费时间和精力,忍受孤独和痛苦的训练才是最重要的,而这如果没有一个学习的愿望是很难坚持下来的。
还有,光有提问,没有自己的思考也是不行的。随着知识水平的深入,CHAT AI出错(出现幻觉)的概率越来越大。再有,CHAT AI的“思维模式”与我们人类是不同的。有时候它们选择的内容和表述的侧重点会不一样,这未必适合我们人类学习,也未必适用于我们想要进入的专业领域。所以与人交流,看人写的书,交叉验证是十分必要的。
此外,与CHAT AI的交互输出,有信息量大的特点,无论对错,都给你无比自信地输出,量大管饱。我们要一边学习一边判断对错,对脑力的负担是不小的。所以与其问:“请你用最新的天文研究成果给我讲解广义相对论”,然后得到一个看不懂的答案,还不如问:“我现在只有初中物理水平,请你给出一个学习路径和学习计划,让我在5年内看懂广义相对论”,然后在5年中让它一步一步地给你上课,这还是可以实现的。
所以问题的关键还是在于自己想学肯学,不断学以致用交叉验证,而不是去听那些想割韭菜的人瞎忽悠。唉,在资本的指挥下,一些顶级的学校的高级学者不管五音不全也加入了大合唱,各种谬论频出:“AI已经达到了博士研究生的智力水平,具备强大的计算和学习能力。学科和专业将融合,不再存在明显的文科理科区分,一个文科生只要会向AI提问,就能进行编程。”把普通人唬得一愣一愣的。我很怀疑这些博士教授们有没有在自己专长的地方和CHAT AI有深度交流,他们会不会编程,会不会判别错误。甚至,他们能不能独立思考,能不能提出有价值的想法,这都是值得怀疑的。
现在CHAT AI的发展可以用侵略如火,势不可挡来形容。以后可能会影响我们人类社会的方方面面。但是,它们现在首先影响的是对自身应用的颠覆性地发展。CHAT AI也才火爆半年,在这半年里,有一个新兴的行业,提示词工程(Prompt Engineering),快速地兴起又快速地衰落。
如何向CHAT AI提问以得到高质量的回答,是一个值得研究的话题,于是提示词工程很快就出现,也有些新潮公司开始设立岗位招这样的人。接着,用前端CHAT AI从人工提问生成高质量提示词给后端CHAT AI使用的研究也出现了。于是人工岗位刚刚兴起就没有了。但是照这样发展下去,就会出现层层套娃的现象,终究不是一个好主意。于是,将人脑与CHAT AI的思维模式相结合以高效搜索答案的研究也出现了,就是这篇思维树论文:
[Tree of Thoughts: Deliberate Problem Solving with Large Language Models](https://arxiv.org/pdf/2305.10601.pdf)
照这个思路发展下去,蒙特卡罗剪枝算法又会重现江湖,终究还是逃不过层层套娃的命运。
但是,还有没有更好的方法?也许发挥主观能动性是有可能的:
[OpenAI员工与友商玩起提示词决斗!](https://baijiahao.baidu.com/s?id=1767747263533478542)
---x8---8x---
然后为降低成本,由高端CHAT AI生成工具给低端CHAT AI使用,以在特定问题上得到高质量低成本的解决方案,这方面的研究也出现了:
[Large Language Models as Tool Makers](https://arxiv.org/pdf/2305.17126.pdf)
---x8---8x---
CHAT AI虽然在参与全流程的软件开发方面能力不足,但是在有复杂约束条件下搜索全局优化解方面有独特优势,于是在搜索空间复杂的情况下,从非正式规范(如自然语言、部分代码、输入-输出示例或伪代码)中生成程序,这方面的研究也出现了:
[Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation](https://arxiv.org/abs/2305.10679)
---x8---8x---
如今这些研究此起彼伏,如火如荼,方兴未艾。正所谓:浪花淘尽英雄。青山依旧在,几度夕阳红。
这个行业如火如荼,确实三天不学习赶不上刘少奇。
Orca这个论文https://arxiv.org/pdf/2306.02707.pdf很惊艳,不过目前也没开源,吃瓜群众的观感是不太信任。 13B可以干的接近GPT水平。当然现在的共识是开源模型与GPT的差距还是很明显的 https://arxiv.org/abs/2305.15717 当然主要差距还是民间算力瓶颈,资本出手的话大模型水平做上去还是很容易的,比如bloomberger花了一百多万刀自己算的那个金融专用bloomberggpt就是用的BLOOM欧洲开源科研大模型做的,也就是到云里租上几十个A100算上几天的事,收集整理数据反倒要花不少力气,这些数据一般都是藏着掖着。
一个最近的好消息是国内的上海AI Laboratory,SenseTime做的一个叫InternLM的大模型,104B,测试很接近GBT4的水平了,应该比百度华为那些都强的多,毕竟经历了正规测试标准,而且多语种,推理能力看实例很强,当然不能用敏感词去测,alignment上的能力应该实际上超越了GPT4 😁