西西河

主题:openAI又迭代出GPT4了,这次支持图片的理解能力了 -- 亮子

共:💬51 🌺146 🌵3 新:
全看树展主题 · 分页 下页
家园 openAI又迭代出GPT4了,这次支持图片的理解能力了 -- 有补充

想起来六七年前有个说法:中美之间传统工业因为需要积累差距很大,反倒是人工智能,互联网之类的新兴行业,中美差距不大。现在这话可能要反过来了。随着美国去工业化跟在人工智能上的加大投入,此消彼长,中美可能甚至传统工业比人工智能的差距要小

点看全图

点看全图

点看全图

通宝推:心有戚戚,
作者 对本帖的 补充(2)
家园 不单单是图形理解能力,基本的文本理解能力比前代都有不小提升 -- 补充帖

对手的长处要正视,任何新技术莫看可能仍然有一堆这里那里的缺点,只要不断迭代下去缺点总会解决的

点看全图

家园 转自鼎盛,文心一言有人测试了,写代码不行,逻辑性不行 -- 补充帖

当然,再烂总归是自己做的,比亚迪跟华为的初代产品也是烂的不行,只要肯下功夫迭代总会变好的。

【被迫上场?我们全方位测试了文心一言,只能说_____。【差评君】】 https://www.bilibili.com/video/BV1hY4y1X7Cs

这里分类讨论一下二者的表现:

1.写一首以猫为主题的打油诗 文心一言:生成了一首类似七言诗的作品,语感上更接近我们印象中的古诗,但是没看出和猫有什么关系,并且用了一个不存在的典故。 gpt4:生成了一段真。 打油诗,不咋押韵,用很白话的语言写了猫,文学性不咋地。 这个环节其实我觉得半斤八两。

2. 写代码 让他们写一个点击会变色的按钮。 文心一言:生成了一段js代码,并且在要求它补充html和css的时候失败。 gpt4:直接生成了html+css+js代码,粘贴进浏览器就能运行,实测可用。 让他们写一个2048游戏 文心一言:生成了一段2048的js代码,因为主持人不是程序员,于是丢给了gpt4。 gpt4:直接指出了文心一言的代码变量名命名错误(用数字开头),数组上限错误(应该从0到2047而不是2048),让它修正后它修正了,并且指出文心一言这段代码并不是一个2048游戏代码(笑死,嘲讽拉满)。 让他自己写一个,它同样生成了一个html+css+js的2048游戏代码,主持人复制到txt里改个后缀就能玩了,就是有点简陋,并且新生成方块的逻辑是随机的。 把gpt4的代码丢回文心一言:文心一言并不能解析代码是什么意思,而是直接把gpt4的html给生成显示了…… 这算不算一个攻击漏洞 总之,写代码,被薄纱。

3.写文章 让他们写本手、妙手、俗手那个高考题。 文心一言:文章全篇都是围绕围棋本身,更像本手、妙手、俗手的名词解释,主持人复制到浏览器搜索可见大片重复文字。 gpt4:逻辑吊打,从围棋术语引申到人生态度,至少是真的在写作文,不过这里主持人就没查重了,感觉不太严谨。 林黛玉倒拔垂杨柳 文心一言:开头还行,写一半逻辑没了,“用一根竹竿然后林黛玉爬上去然后倒拔了柳树”,所有人都没看懂林黛玉怎么拔的。 gpt4:试图用文学性取胜,有很多环境、人物语言描写等,但是理解成了把其中一个柳枝倒过来,操作是用红丝带拴着一个柳枝使它倒过来。 孙悟空穿回三国会发生什么 文心一言:这次老老实实列了四个可能性,说孙悟空有可能会和三国的人物相识,从而发生xxx故事。 gpt4:相比之下更厉害的地方在于,它会结合孙悟空的个人能力,比如头脑聪明,法力强大,再结合个人能力分析他在三国会怎样。 我也是看了gpt4的答案,才像弹幕里说的意识到,相比之下文心一言的回答可以把孙悟空换成隔壁小王,也没啥区别。 总结:逻辑性应试性的文章chatgpt吊打,脑洞类两个有时候都抽风。

4.逻辑陷阱 类似于刘备和刘秀什么关系,爸爸和妈妈能不能结婚,番茄炒西红柿怎么做这种问题,文心一言的表现和gpt3差不多,会胡说八道。 gpt4基本都能识别出陷阱。 当然这个也是gpt4这次重点优化的一个部分,表现被薄纱我觉得没啥可惊讶的。

5.数学题/逻辑题 用1234做24点 文心一言:傻了,直接出bug,大段无法理解的文字。 gpt4:先给你解释怎么一步步生成的24点,最后列出算式。 用3L和5L的水桶称出4L水 文心一言:3L水桶装满,倒进5L水桶里。 没了,摆烂了。 gpt4:第一步.3L装满,倒进5L水桶 ; 第二步 3L装满再倒进5L水桶,直到5L水桶装满; 第三步 把5L水桶倒空; 第四步 把3L水桶剩下的水倒进5L水桶 (此时3L水桶里还有1L水); 第五步 3L水桶接满,再倒进5L水桶(此时有4L水) gpt4不仅对了,还会分步骤,甚至会给括号解释内容。 被薄纱 另外直播快结束的时候好像还测了一个开根号的问题,文心一言又bug了,疯狂输出的那种bug。

6.辩论赛 让他们扮演一个辩手,辩论“近墨者黑”和“近墨者未必黑” 文心一言:对不起,我不能扮演辩手和你辩论。 gpt4:好的,我将作为辩手和你辩论。 然后围绕“近墨者未必黑”,从个人选择和家庭影响两个缅方面展开了论述。 严格按照总-分-总模式形成了论点。 把gpt4的论点粘贴给文心一言试图让他反驳:好的,我来反驳。 然后把gpt4的论点复读机了一遍。 总结:被薄纱

7.文生图以及文字转语音 文心一言:文生图没有一次达标的,让生成围棋棋盘,中间硕大的国际象棋; 让生成西红柿炒蛋,出来毫不相关的图; 让生成林黛玉倒拔垂杨柳,直接拒绝生成。 文字转语音:多次尝试关键词后,成功了。 不过恕我直言,这和其他文字转语音软件有啥区别啊…… gpt4:没有这个功能,被薄纱了呢(狗头。 没有测gpt4的多模态读图功能,虽然我觉得这才是多模态的核心。

8.上下文理解 文心一言:上下文理解稀烂,很多时候两句话之间都无法形成记忆,更别说连续对话了。 gpt4:这还用赘述么,3.5时代就可以一直callback没问题了。 总结: 测到最后主持人绷不住了,总结文心一言的优势的时候说它有gpt不具备的文生图和语言功能,大家自行评判。

其实chatgpt出现之所以惊艳众人,就是它强大的逻辑归纳能力,以及上下文语意理解能力是划时代的,和之前的人工智障观感完全不同; 再加上强大的代码生成能力,不止能写,主要是还能理解,论文类也不在话下,这种类似的应用就可以解放生产力。 文心一言的逻辑能力和上下文理解可以说还是很初级的水平,对于语意的理解也很一般,更别提整合信息的能力。 我们当然可以说给国产技术一些时间,关键是,openai给不给他们时间呢? 发布于 2023-03-16 22:46

见前补充 4872784
家园 它的革命性已经在上个月的讨论中被排除了

八百万年以后的地球统治者,可能是大象,可能是猴子,甚至可能是蟋蟀,但绝对不可能是公仔布娃娃玩具总动员,此路不通。

家园 人工智能的差距就是传统工业的差距

美国的市场环境使得即使是openAI这种小公司,也可以轻松购买到超过整个中国的AI算力。上万张H100,这玩意中国除了打台湾,根本弄不出来。百度搞AI被几百张H100卡的难受。被挨着国内的半导体产业链卡脖子,也是奇观了。

要是中国随便一家初创独角兽公司也能弄到几百Pflops的算力,壁仞可以敞开造,至于沦落到现在这种水平?

通宝推:赵美成,
家园 记得知乎谁参与过浪潮源1.0模型,结果只有神威太湖之光跑得动 -- 有补充

那个源1.0模型参数比chatgpt还多30%,结果跑不动只能放在硬盘里吃灰,参与者走的走散的散,太可惜了

作者 对本帖的 补充(1)
家园 哎出处找到了 -- 补充帖

中国的大语言模型「悟道2.0」参数是 GPT-3 十倍,中国在大语言模型训练技术上是否已经远超过美国? - 知乎

https://www.zhihu.com/question/584132646/answer/2894397919

家园 大明宝船错失大航海时代
家园 百度刚推出文心一言股价直接跌了10个点

不过看来真是自己做的,不是套个壳子直接连gpt的

家园 文心一言的发布会一言难尽

李彦宏直接明说了大模型到后面拼的是芯片...

家园 我们给人做个盲文设备都要写保证书

因为用了TI的卡,要保证不用于军事用途。

家园 当然百度再烂起码还能跟进,隔壁Facebook已经彻底掉队了

扎克伯格让tiktok给揍得半死,当初也不知道脑子进了什么水all in 元宇宙,百度all in ai好歹还算是未来的方向,元宇宙算什么未来发展方向

现在靠裁员降本能勉强拉一波股价,但是长期来看实在堪忧

点看全图

无怪乎要游说拜登弄死tiktok

见前补充 4873775
见前补充 4873888
家园 百度这次可能要做烈士了,

不成功,肯定死,成功,也死(盈利模式彻底变了),但是还能挣个好名声。

家园 元宇宙肯定是能成的,但是小扎早走了两步,成傻瓜了。
家园 讨论?没有J20之前,国内还幻想J8枪挑F22呢!

自己都还没摸到门,就讨论没有革命性啦?自己给自己壮胆

全看树展主题 · 分页 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河