西西河

主题:【原创】深入谈一下chatGPT对我们我国的重大影响 -- 东东山

共:💬200 🌺1876 🌵20
全看分页树展 · 主题 跟帖
家园 深度好楼,深度好文,也聊聊我对ChatGPT初试

非常感谢您与东东山楼主分享经过对ChatGPT的亲身实践而产生的深刻思考,受益良多。

也顺便谈谈我的初试及感受,抛砖引玉。

第一个问题:市场问题。微软的ChatGPT也好,Google的类似产品也罢,出发点首先不会是技术,而是市场 ---- 因为大家都要生存。Google之所以对ChatGPT如临大敌,倒不是完全出于拿不出对应水平的技术或者产品。我相信以Google的实力,发发狠,短则3个月长则半年,就能拿出可以一拼的产品(不只是技术)。问题是:拿出来了,又如何?

搜索行业有一个悖论:公司给用户的答案质量越好,用户越快能找到想要的答案----意味着公司的利润率下滑得越厉害。搜索公司靠广告点击生存。

第二个问题:ChatGPT的训练过程。

我也是做了一个小实验,就3个问题(用英语,不用中文欺负它)

1、Who will generate training data for ChatGPT?(ChatGPT 靠谁生成正负训练数据?)

ChatGPT这次很老实,说还是靠人

the training data for ChatGPT and other language models is typically generated and curated by teams of data scientists and engineers at the company that developed the model

ChatGPT 和其他语言模型的训练数据通常由开发该模型的公司的数据科学家和工程师团队生成和管理

2、我接着从三个方面套ChatGPT:

How much training data has been used to train ChatGPT?

How much is cost to train ChatGPT?

How many computational resources (GPU or TPU) are used to train ChatGPT?

使用了多少训练数据来训练 ChatGPT?

训练ChatGPT 的费用是多少?

使用了多少计算资源(GPU 或 TPU)来训练 ChatGPT?

ChatGPT这次却很不老实,很不合作,拒不回答真相

while the exact amount of training data used to train ChatGPT is not publicly disclosed, it is known that language models like ChatGPT require large amounts of training data in order to perform effectively.

the cost of training a language model like ChatGPT can vary widely depending on a number of factors, but it can be a computationally intensive and expensive process that requires access to large amounts of data and significant computational resources.

In summary, the exact number of GPUs or TPUs used to train ChatGPT is not publicly disclosed, but it is known that training large language models like ChatGPT requires significant computational resources, including many GPUs or TPUs working in parallel, as well as large amounts of memory and storage.

虽然用于训练 ChatGPT 的确切训练数据量并未公开披露,但众所周知,像 ChatGPT 这样的语言模型需要大量训练数据才能有效运行。

训练像 ChatGPT 这样的语言模型的成本可能因多种因素而有很大差异,但它可能是一个计算密集型且昂贵的过程,需要访问大量数据和大量计算资源。

总之,用于训练 ChatGPT 的 GPU 或 TPU 的确切数量并未公开披露,但众所周知,训练像 ChatGPT 这样的大型语言模型需要大量的计算资源,包括并行工作的许多 GPU 或 TPU,以及大量的 内存和存储。

以上两个问题,是互为因果的现实问题,是每一个有真正大规模运用前景的技术产品必须解决的问题。

基于以上两点,我个人认为:

1、ChatGPT当然是个划时代的技术产品(尤其是自然语言理解,比之前有了很大进步----这也不奇怪,微软在语言及语音识别方面投入了几十年功夫了)

2、ChatGPT的训练数据尤其是关键的正负数据标记,还是基于人工----这就意味着它的训练成本仍然极其高昂,这也是为什么它拒不透露真相的原因----当然不是ChatGPT本身拒不透露,它没有这个智商更没有这个必要,而是它背后的人仍然有这个智商更有这个必要拒不透露---- 为什么呢?这就很值得寻味了。

总而言之,ChatGPT应当值得高度关注。但是它是否已经离大规模真正成熟很近了----尤其是何时能实现真正的训练自我迭代自我循环(即无需费用极其昂贵的人工训练数据标记),仍需观察。

通宝推:赵美成,梓童,GWA,落木千山,strain2,枪膛草原,桥上,宝特勤,神仙驴,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河