主题:河里程序员不少,应该知道对人工智能而言数据的重要性远高于模型 -- 亮子
高增量的时代,比如西进运动、淘金热、石油热,《西部往事》以及里面土匪头子演员出演的另一个故事结构高度相似的电影里面发现泉水占据地利发财、《公民凯恩》也是靠着地契机械降神一般的发财、爱迪生和贝尔以及通用汽车为代表的发明致富……二战的胜利、美式快餐的成功、新自由主义协助下的跨国资本主义、电影工业的成功、信息技术革命……
这个高增量的时代的同时,也是传媒出现的时代,报纸和邮购目录随着铁路横跨美洲大陆,是公民凯恩的时代,是扇着风把酒香传出巷子的时代,是对着大风一起说真香的时代。
如果增量时代结束,增量时代留下的记忆随着时间消退,美国是不是也会自动注重从分母中获取负反馈呢?对失败的宽容,来源是什么呢?
AI的热门,除了这两个月语言对话的chatgpt,还有一个最近半年的图像生成的扩散模型。
扩散模型最初提出来的时候,需要3000次迭代。清华的几项研究令迭代减少到了几十次甚至极端情况的十几次。
说中国没有创新能力,这并不合适。
计算机和互联网刚刚开始普及的时候,Data Entry 的工作很吃香。大量的打字员、文秘转行干这个。但几年之后等大多数有用的旧数据都输入了,新数据输入自动化了,这个行业就基本消失了。
这个打 Tag 的工作也一样。
大项目的标签管理核验几乎不可能
从象棋开始,越来越多的研究已经开始注重自学习、自模拟
最初上网阅读的年岁里,看到很多能理解为输入法相关的错误,但是也有很多显然是OCR相关的错误识别、拆字错误。ocr的应用影响还是比较早的。
后来互联网带宽宽敞之后,更多东西直接一个图像扫描,pdf、djvu、caj什么的。
小规模的模型实验室里玩玩那种中国还能追赶下美国,到了大规模的模型,动不动几百上千亿个参数一次训练就得好几百万美金的时候中国就跟不上了。感觉归根结底还是缺钱缺数据。
很多科技“基础设施”上没有明显的回报,没人做
AI的重大突破,原创成果都是老美的,我们一般是等别人开源了,然后逮着猛灌水,美其名曰微创新。现在别人不开源了,考验的时候到了。
只不过,社会物资充裕,跌倒底层确实影响尚可。
大萧条时期,跳楼的也是一堆堆。
缺少关键步骤的原创能力。例如chatGPT里面的奖励机制,以前国内是没人做过
所谓一次训练几百万美金,那是忽悠外行的。实际对于头部大厂,早就建好了上万块卡的集群,训练一次也就花点电费。这些大厂平时也都训练无数模型在跑,横竖都是花电费。区别就是跑的模型大多数都是尝试,只能提升那么一点点。
如果堆数量能赢,中国早就胜利了。