西西河

主题:【整理】芯片败局 -- 拿不准

共:💬719 🌺8746 🌵288
分页树展主题 · 全看首页 上页
/ 48
下页 末页
            • 家园 咱俩对模型的理解好像不大一样

              我对你说的这个网站不熟悉,对AI技术和分支也不熟悉,所以看这个网站有些迷迷糊糊,没怎么看懂。但咱俩说的模型好像不是一回事。

              拿我稍微了解多一点的Linux的distribution做个类比:Linux各种distribution没有上万,也得成千上百。但真正有影响应该不超过50:

              放狗搜Linux Distribution

              这些有影响的distribution之间都有相对比较明显的区别和特点,或长于UI,或长于短小精悍,或长于稳定性,或长于支持某些应用,互相之间有比较大的区分度。

              而你发的网站里一共不到6000个entry,#1 maintainer就submit了超过700个。粗看了一下他submit的具体内容,应该有不少是版本更新,而且很多是基于同一个模型的refine。我不确定这些模型凑一起,能有足够的区分度达到“万花齐放”的程度。当然,我也不知道我引用的水贴里的那些国产模型之间是否有足够的区分度。

              通宝推:exprade,
              • 家园 因为所有大模型开源的只一家,就是脸书的llama

                大语言模型好几家族谱,谷歌,脸书等都自己有,一鸣惊人的是OpenAI,没有开源,后来脸书为了搞乱市场,故意流出自己的模型,这里的开源与linux也不一样,因为没有参数,开源也没用,脸书流出的llama是参数齐全的,可以拿来即用,然后全世界都在拿这个在那里调试改进。后来脸书就正式开源llama 2了,不玩流出这种把戏了。

                这是类似chatgpt的大语言模型而言,实事求是的说,除了openAI的chatgpt4,其他包括脸书开源的,也包括openAI自己的chatgpt3.5的性能都与其有明显差距,随便任何人用几个问题一试就可以看出,都不用玩复杂的。 后来所谓AI恐惧症加上各种立法限制大讨论主要也是因由GPT 4带出来的,因为chatgpt 4版的表现确实比较吓人。

                所有今天真正市面上频繁发布的大模型都是llama开源的后代,有个人的,机构的,也有企业级的,也包括微软的大模型产品。闭源的话只有那么几家传统AI企业偶尔升个级,比如谷歌等,但因为性能都比不上人家公开使用(付费)的OpenAI家的gtp4,所以浪花都不大。但不是说不能用,其实闭源做的比较好的性能差距不是很大,在chatgpt4一炮而红之前也有很多应用,有很大的市场潜力,商业产品也多。 只不过现在大家都一窝蜂去只看gpt4了,最后那一点差距决定了大模型的一些应用与潜在的产品。 相当于说,比起哺乳动物,十岁幼童的智力都高了几个数量级,但是十岁孩子遇到30岁骗子,肯定是见一个拐一个的差距。基本上其他大语言模型目前与chatgtp4的差距就是这么个体位的间隔。

          • 家园 他说的越来越保守封闭,其实正是美国

            保守封闭的原因,是危机感、恐惧和不自信。美国统治阶级的潜意识,是自由市场竞争已经打不过中国,必败局面,所以才只好各种下三滥手段齐出。

            在美国昂扬向上的历史时期,还不至于害怕竞争,拼死要保住自己手里那点既得利益。

            美国真是衰老了。

            • 家园 的确是进入新冷战了

              不同空间与价值观了,这个弯转过来一切就迎刃而解了。 战后几十年的全球化与后来的新自由主义,在美国基本上是被当作教训,虽然没有臭大街,但川普2016上台就是最大的昭示。 川普是门罗主义的逻辑,但二战冷战的胜利仍然在美国很有市场,所以更早的门罗那一套目前并不是主流,但把中国当作苏联2.0已经毫无疑问了。所以任何对华尔街的幻想与最近到两三年前的暧昧,都已经被连根拔起了,尤其在拜登任上, 如果川普真的能上台,美国政策还有可能大转变,但基本上对川普现象不抱幻想了,完全进入花边奶头乐领域了。

          • 家园 中文语料和模型输出的各种被阉割

            meta的llama 2开源且可以直接用于商业化, 这就决定了大部分国内的大模型没有存在的必要。Claude在很多方面都比chatgpt表现优秀, 而国内的模型比chatgpt不知道差哪儿去了。可以这样说, 中国在算法,模型,训练方法上没有任何创新。但中国确实对AI有很大的贡献,那就是输出了大量优秀的AI人才😁 一个在语料和模型输出的各种被阉割的环境下,搞generative AI不是搞笑吗?

            • 家园 目前的态势是开源LLM比闭源尤其chatgpt差的不是一点半

              点,这个基本是公开认可的认知。而且稍微有点突破的开源模型马上就需要下载审查,这个意思很明显,就是担心“核扩散”么。审查还是表象,大数据马上根据提交的下载申请进行全方位定点跟踪,查三代,全日程监察等就可想而知了。

              美国人的传统习惯与中国人不同,删帖封号不是主流,但是暗中监控绝对比中国要做的规模大得多。简单的说,美国偏向异蛇出洞,中国更擅长封嘴,不同的思维路径。

              另一个极具防止”核扩散“的特点就是alignment,动不动就要政治正确,实际上就是只能开源二流的傻白甜模型,让大众去玩耍。 真正大杀器太危险,怎么可以开源。 所以中国的大模型群体如果仍然是用github拿来主义,走开源国产化道路,那么确定无疑的是无法弯道超车的。因为目前开源本身就是大模型的猴版,除非中国自主模型出现突破,尤其不再关注大模型在西方市场的热度,那才是真的我打我的你打你的。目前还没有这个迹象,资本与热炒仍然是媒体主流。

            • 家园 展开说一下?

              您看上去这方面的专业人士。能展开说一下吗?

              1. "meta的llama 2开源且可以直接用于商业化, 这就决定了大部分国内的大模型没有存在的必要。" 为什么呢? 难道说国内的大模型都是基于llama 2?llama 2的开源会不会同样影响美国的大模型?

              2. "语料和模型输出的各种被阉割",我猜想语料是指中文网一些被屏蔽的内容,模型输出的阉割是指输出中需要屏蔽的内容。但众所周知,这些屏蔽范围很明确,其实并不大。中文网绝大多数内容不在这个范围。您似乎认为有限的限制会对模型产生很大的影响,为什么?

              3. 如果"中国在算法,模型,训练方法上没有任何创新",那中国如何又能"输出了大量优秀的AI人才"? 这些AI人才不能创新,又如何堪称"优秀"?

              • 家园 有啥好展开的,就是预设立场了嘛

                逢中必反的殖人,会用各种有的没有的东西证明中国不行。之前还有说华为三百年都造不出芯片的呢。

                chatgpt出来以后狂欢了一段时间,现在看来好像也没那么神。

              • 家园 你这几个问题都是很浅显的层次的问题

                1. "meta的llama 2开源且可以直接用于商业化, 这就决定了大部分国内的大模型没有存在的必要。" 为什么呢? 难道说国内的大模型都是基于llama 2?llama 2的开源会不会同样影响美国的大模型?

                中国引进有商业化问题么? 美国包括西方整体法律不适用与中国特殊国情,所以美国的license法律问题,这个问题上完全不存在疑问空间。用起来挣到钱就是真的,其他都是浮云。

                2. "语料和模型输出的各种被阉割",我猜想语料是指中文网一些被屏蔽的内容,模型输出的阉割是指输出中需要屏蔽的内容。但众所周知,这些屏蔽范围很明确,其实并不大。中文网绝大多数内容不在这个范围。您似乎认为有限的限制会对模型产生很大的影响,为什么?

                目前大语言模型的一个共识是训练数据集的作用是决定性的, 训练数据的潜规则一定会在模型的输出上反映出来。 比如chatgpt不能说被认为是种族歧视的话,不论有多少训练中的证据,输出必须符合政治正确,那么只能在训练数据中下功夫,让大模型进入韭菜状态,被忽悠的大模型才是好的大模型,在输出的语言自然都是满满的正能量。

                3. 如果"中国在算法,模型,训练方法上没有任何创新",那中国如何又能"输出了大量优秀的AI人才"? 这些AI人才不能创新,又如何堪称"优秀"?

                这也很好理解,AI需要数理基础,中国培养的人才这方面比较偏重。 AI本身的逻辑不需要太多的数理基础,但是AI运行与开发的工作目前让然是依赖于人类对数理知识1掌握。 而中国教育制度的下的一个突出技能是数理技能,因此AI的开发目前绝大部非是华人,包括美国海华与大陆移民。尤其大陆移民,看论文署名就可以知道。

                • 家园 接着问

                  1. llama 2是开源的,国内引进是完全合法的。但可以引进不等于一定要引进。为啥llama 2开源就决定了“大部分国内的大模型没有存在的必要”?是因为llama 2的performance秒杀大部分国内的大模型?如果是,还请提供确切的信息来源。就算国内能引进,是不是就此可以认为“大部分国内的大模型没有存在的必要”?难道企业不担心啥时候llama突然不开源或者美国政府弄什么幺蛾子?

                  2. 所答似乎不是所问。模型是模型,语料是语料,训练是训练。这三者固然有联系,但还是有区别,可以分别评估的。再说了,中文语料有阉割,你也说了英文语料也有self censorship,为啥单说这是国产大模型的缺陷呢?

                  3. 原来你们强调的是中国能【输出】AI人才,我不同意的是“中国在算法,模型,训练方法上没有任何创新”,我觉得中国能【出】AI人才:

                  AI Research Rankings 2022: Sputnik Moment for China?

                  • 家园 语料虽然只是一方面,但对语言模型很重要 -- 有补充

                    大模型的所谓训练,语料(corpus,很喜欢语料这个翻译词)都与模型架构本身一样对模型的性能有决定性影响,这也是为什么开源大模型架构本身没有太大意义的原因,不但训练的耗材是个门槛,就是语料的选择本身都是未知数。

                    脸书meta开源的那个llama是连架构带参数一起给了,所以最大的门槛被解决了,而且原始版是没有经过政治正确调试的,可以胡说八道 😁 不过提起智商来比chagtp4差的不少。比如问题个”老张是小张的爹,老张与小张谁先出生的“,完了,就这么个问题十个模型可以给出三十种解答,而且90%没答对😄 这种模型用起来那叫一个不踏实。

                    就这么个开源模型,全世界从阿联酋到美国海军陆战队,都在抢着调试改进,唯一的好处是可以压缩小版本在手提电脑上用,甚至未来还可能在手机上用,不用联网自带十万个为什么,吸引力很大,不过智障也很显著 😁

                    当然这个政治正确调试不是唯一造成智障的原因,其他大模型比如绘画的那些,就比较不容易受到这些语言范围内的调试影响。

                    不过说起国内引进的话,llama比较现成的开源,参数与广大开发调试群体的数量庞大,类似linux,不用白不用。 这是对于一些本身资源有限的企业级应用来说的,你自己开发估计还赶不上llama的进步与应用配套的广度与深度。 当然大企业甚至国家级的资源,就另当别论了,自己完全可以从头干起,所有大模型与AI科研都可是有paper的,甚至开源的程序都可以找到,这些不是门槛,更有可能的是大企业自身就是这些进步的推手,比如谷歌,国内也有几家,但是大模型的科研与训练对自身资源的口袋深度是有很高要求的,确实不是一般企业玩得起的。

                    客观的说,国产大模型没有任何道理比OpenAI的差,但同理也无法解释谷歌的大模型为什么表现不如chatgpt4. 这里面包括了模型本身架构,基础计算设施,资源投入,训练方法,以及语料,除了第一条之外,后几条几乎都是不开源的,属于核心竞争力。其中尤其要重视语料的质量与选择,我前面说过llama开源后很多上万种各种调试,后期训练等,其中主要区别都是在语料方面,因为前期训练成本太高,一个30亿参数的袖珍版小模型就要投入上百万美刀的训练成本。但语料的提高可以得到非常明显的性能改善,这现在基本是公认的了。

                    中文语料的质量与选择无疑是个工作量要超过英语,本质上是文字信息在互联网与文献中的普遍以英文存在的原因。 相反在算法领域,在模型架构上,因为中国人才在AI科研领域的广泛参与,我个人认为可能还真不存在中美差距。 但是在后几个领域,因为看不到paper,而且基本上都是各家关起门来闷头干,所以很难估量。 不恰当的比方,类似闭源软件,你说中国的顶级企业软件水平与资源,就是从头开发个视窗 windows10操作系统,理论上应该是可以做到的,但是这么多年了不但中国全世界也没人干成这事,就那么看着微软得瑟。 说明这后面的工程量与难度还是很大的。

                    作者 对本帖的 补充(1)
                    家园 还有一个有利与国内的地方忘了提 -- 补充帖

                    就是那个copyright问题,目前是大模型领域的重大法律纠纷定时炸弹,chatgpt已经成了众矢之的,好几个大案都在筹备中,准备好好干一票。 这个问题的发展无疑会不但对OpenAI自身经营有重大影响,对大模型商业模式与性能调试,都是继政治正确紧箍咒之后的另一个重大转折点。然后,中国没有这方面的顾虑,虽然对走向西方市场有影响,但反正脱钩了,市场面向亚非拉,可以爽快的把知识产权这顶帽子甩得远远的了😁

                    欧美大环境目前是对AI非常不友好,从民间到政府,都有强大的怀疑不信任, 取代工作是主要担忧,当然大企业与资本是AI背后的强大推手,但在AI矛盾上会不会引发21世纪西方全球党控制以外的新一轮共产主义运动,这是个很有看点的地方。

                  • 见前补充 4921747
      • 家园 关于华为的AI,一直有个疑问

        华为搞AI,底层是以鲲鹏和昇腾芯片为基础的。那么问题是,这两个芯片现在还有哪家可以替HW代工?有传说是通过马甲找中芯代工的,但不确定。如果AI芯片制造这块搞不定,那盘古模型会不会成为无源之水?

        • 家园 华为实际控制的线超过若干条

          松山湖总部内就有一条流水线!

          华为的人成建制接管,调试国产设备,新产品,验证EDA。

          放宽心,到明年春暖花开,看新一代跃马疆场,把敌人打得落花水。。。。。。

          还有人不放心,我就说一件事,荷兰这次制裁中国,不卖先进的EUV和193nm浸入式DUV光刻机,但是留下1980i这个缺口。要知道,当年台积电的第一个7nm工艺就是在1980i上面定型的,也就是说,仅仅凭手里的1980i,中芯国际就能做出N+2工艺,接近7nm的水平,更不要说国产的DUV光刻机了。

          为什么?

          制裁第一原则,敌人能做的,我不制裁。

          制裁第二原则,敌人很快就能做的,我也不制裁。

          制裁第三原则,制裁导致敌人暴走,我方没有立即开战准备的,放松制裁。

          一个多月前得知,EUV最难做的三大件:125w/13.5nm的光源,双工台和反射光学系统的样机全部合格,已经开始整机调试了。快的话2年,慢的话3年,最长5年,中国就可以完全自主可控地生产EUV了。

          现在知道的不能说,说的都是没有直接干的。不是故意这么故弄玄虚,华为已经被制裁,中芯国际也被制裁了,而许多华为的供应商给华为供货,虽然没有用到美国的管制技术,但一旦曝光,他们也会被制裁。这些公司有原本的生意,不希望给华为供货而惹麻烦,最后只能请大家闭嘴,避免不必要的麻烦。

          只有像我这种没有直接干,能从相关信息自行推断,但对供应链信息一无所知的人,还可以放一放炮。

          通宝推:天涯无,紫梁,flycloud,我心安处是故乡,玉米菜,五藤高庆,杨微粒,newbird,回旋镖,梓童,朴石,光头佬,河江河,广宽,史料推理,放牛郎,nettman,黄序,尖石,落木千山,真理,llama,桥上,青青的蓝,soufayu,rentg,西电鲁丁,没选择,天狼星,外俗内正,happyyuppie,绿色蔬菜我的爱,破奴冠军,潜望镜,心有戚戚,大山猫,老调重弹,方平,
分页树展主题 · 全看首页 上页
/ 48
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河