西西河

主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬45 🌺132 🌵8新 💬33 🌺4
分页树展主题 · 全看首页 上页
/ 3
下页 末页
  • 家园 这几天大火的Deepseek没有人讨论吗

    一个小团队,靠着相比国外巨头们微薄的资金,开发出了媲美chatgpt的产品,更牛逼的是居然给整开源了。

    以前下载了chatgpt,试了几次就扔一边了,直到听说了deepseek,果断下载安装,对比之下,感觉deepseek比chatgpt强了不少,逻辑推理方面deepseek绝对占优。二者相比,deepseek感觉是理科生,条理清晰,响应快,推导过程直接显示出来。chatgpt说话漂亮,响应稍慢,不给出推导过程。

    几百万美元的培训成本打败了几十亿上百亿美元成本的巨头们。deepseek用一己之力把美国仅存不多的优势又拉下马一个,大写的赞👍

    • 家园 胡锡进这个帖子里的这句值得关注呀

      惊艳!面对海啸般乱拳,DeepSeek这样回答“你怕吗”

      他们封杀的是昨天的DeepSeek。当他们在国会山争论是否禁运H100芯片时,我们的光子计算原型机已经在合肥实验室跑通了1750亿参数模型

      光子计算,这是个啥东西?此前似乎没咋听说过,量子计算倒是听说过

    • 家园 这是一场关于人类自主性的斗争

      一方要打造几个超级AI,都在云里成为普通人获取知识,新闻,和娱乐的窗口。普通人只能使用但不能改变AI。统治阶级通过AI控制普通人的感知,想法。

      对应的,另一方要让家家户户都有自己的AI,几十家上百家生产商竞争,用户还能自己改造,AI就存粹是个工具,而不能成为一个自上而下的人脑控制工具。

      前者要推动关于AI的立法,要合规,要监控。通过控制硬件的生产和流通来避免地下AI出现。让中心式AI做生活里各个方面的决定,比如在教育,政府部门领域,到没有中心AI就社会停止的地步。

      后者要让个人和小集体可以独立自主地训练,改进,运行本地AI模型。让AI成为一个工具,不鼓励人类盲目相信AI。

      这是一场关于人类自主性的斗争,如果前者成功,统治阶级将能够控制普通人的“现实”和思想。

    • 家园 和gpt一样好,或者和gpt一样坏

      我强烈反对用此类工具做教育目的,是因为他们都会一本正经说错话、假话。对于某个问题完全不知道的人,特别是孩子,会毁了他们。但是对于明白的人,做辅助工具是很好的。

      比如我问一个很简单的逻辑问题,《圣经-旧约》中国王寿命的矛盾问题,双方都无法给出全面正确的答案。逻辑上是很简单的,对于死亡后才被继承的国王,继位年龄+在位时间=寿命。找到这三个数字,做个比较就好。但是两者都无法做到。不管什么语言,《圣经-旧约》肯定是在训练中可以取得的文字材料。即使训练不用,对于互联网遍地各种语言版本的圣经原文的条件,如果连这个搜索能力也没有,也是令人沮丧的。

      另外就是概念解释问题。比如我问过DS什么是马尔可夫过程的问题。在第一次回答时,DS就阐述了马尔可夫过程的一些性质。但其实这只是马尔可夫过程的特例,稳态马尔可夫过程(转移矩阵恒定)的性质。当然为了避免定义的差异,我后来特意问了,转移矩阵不恒定是否也叫马尔可夫过程,它明确回答也是。类似这样的话题,我们需要一些先验知识,一步步去问,它才能提供越来越正确的答案。更危险的是,它会倾向于同意你的诱导性提问。如果你是一个错误但自信的状态,它会大大加强你的错误(有点类似抖音,爱看大长腿的,发现网上女人真的都是大长腿)。如果孩子们拿这类工具当老师,考试吃瘪是小事,工作中犯错损失不可估量。

      最后重申,这不是DS的问题,是整个语言大模型类AI的问题。DS依然是gpt的同路人。从使用者的角度看,没有走一条新路。或者说要到非常细分的技术层面,才算新路。我始终认为,这条路上,AI只能是越来越乖巧的,博闻广识的鹦鹉,但并不会有猴子那样的智力。


      本帖一共被 1 帖 引用 (帖内工具实现)
      • 家园 在西方舆论为主的基础下,搜寻的结果大概率还是西方优势

        绝大部分材料基础为先。

        这点国内短期无法改变和覆盖。就算是中文也是如此。

        中国方面因为邓小平而撒谎丧失信誉,不被信任,虽然比美国强,但是时代不同了,更多的真相被披露,自身也得谦虚谨慎。以前跟着美国丧失信誉的错误必然被历史清算。

        中美对账不是说中国多好,美国多坏,而是双方犯了什么错误,有没有问题。

        美国这个半底层明显有问题。

        我看了有一些人家的饮食特点,感觉热量都不够,这点大家也看到了。

        很明显,这个阶层也觉得中国底层更差。或者说中国大部分是底层。

      • 家园 从实用角度,DS是个里程碑:性能高;创造力——来自信息压缩

        我没试过chat-gpt,但国内之前的那些语言类大模型都是垃圾,性能低到必须不懂装懂,就是我说的——聊天机器人、话术、糊弄。

        chat-gpt模型更大,预测应答更慢,虽然看似性能比国内的那些垃圾大模型强,但性能曲线是处于差不多位置的。

        DS则是整个性能曲线进步了一大截,这本是就是特别了不起的进步,所以DS在回答的时候,遇到不懂的问题可以老老实实承认:

        【对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类的题目,欢迎与我交流。】

        --

        DS的性能曲线提升,不仅因为是整体架构上突破,特别是模型大小减少了很多,后面这点更重要。

        模型做得越小,越说明对于整个知识库的压缩能力越强,越接近人类,这一点是毫无疑问的。

        你要从整体的信息压缩角度看,压缩的越厉害,越接近人类,压缩超过人类,那就是超过人类。

        从信息角度,创造力并不是什么了不起的东西,接近人类平均水平,就获得了人类平均水平的创造力。

        当大模型的信息压缩能力超过了人类平均水平,那就是某种生成模型了,当然可以根据某些规则生成人类真假难辨的东西。

        这一切都是信息,信息压缩得越厉害,就越有创造力,当前的DS在短篇上、诗词上、古文已经表现出了超出普通人的创造力。

        --

        DS把大模型做小这一点,才是在人工智能这个领域真正的突破——只要你能够做到信息压缩,你就能获得创造力。

        ==

        然后对于你说的问题,你是按照给严格正确的问答机器人角度拷打DS,我写过,DS依然不是问答机器人,而是介于聊天机器人和问答机器人中间态的智能助手:搜索助手、分析助手、汇总助手。

        当前的DS没办法替代人来得出答案,做是否判断,只能够作为智能助手来帮助人做出判断——跟过去的的聊天机器人比起来,这已经是特别惊人的进步了。

        • 家园 与其说是信息压缩

          不如说是抽象程度。抽象程度越高,思维和表达能力越强这一点已在很多学科的发展中被证实了。个人感觉人类思维在本质上是二维的,抽象和联想(或者是泛化)是其中一维,归纳和演绎是另外一维。

        • 家园 我不同意你的基本出发点

          模型做得越小,越说明对于整个知识库的压缩能力越强,越接近人类,这一点是毫无疑问的

          这个观点的来源是哪里?我是很有疑问的

          A 张三长得很丑

          B 越丑的人越像张三

          A不能推导出B。

          • 家园 就像生成模型,创造力只管生成,判断归用户。形式逻辑问题很大

            (1)DS的创造性

            DS的例子,对于金庸武侠的东西合璧问题,我给一小段,DeepSeek能够用它丰富的知识库扩写成一大段,这就是创造能力。

            当我和DS前一个观点冲突的时候,DS根本不作正确与否的判断,根本懒得反驳我,而是履行一个智能助手的职责,去细化分析。

            (2)图像生成算法的创造性

            我不知道你对各种生成模型怎么看?特别是图像领域的各种生成模型,所有生成的图像都是假图,不是真实的照片,包括最基础的超分辨率。

            即使是最基础的超分辨率算法,依然需要在图像里填满各种算法猜测出来的细节,无中生有,才叫创造性。

            (3)创造性先于逻辑能力,模型不判断正确与否,只管无中生有。

            【模型做得越小,越说明对于整个知识库的压缩能力越强,越接近人类】我的这句话指的是创造性,不是指模型有了逻辑思维能力。

            就像我说的,模型不判断真假,不判断对错,只是在履行一个智能助手的指责,细化分析。

            (4)DS的生成答案,生成的是一个细化的组织化的问题描述,而非对于原来问题真假与否的判断。

            本质上,所有的语言类大模型都是生成模型,它是生成一个答案,而不是回答一个问题——这两个是有本质区别。

            早期语言类大模型是聊天机器人,用话术生成了一个答案来糊弄人。而DS做到了智能助手的范畴,生成了一个分析细化的答案。

            一个分析细化的答案,只是对原有问题的补完,它本质上是相当于把原来的问题重新复述一遍,再以丰富的知识库把问题补充完整。

            这就是分析细化,如果你看得不够仔细,你会以为DS有了逻辑分析能力,进而误以为DS的答案做出了是否判断。

            但实际上并非如此,DS的分析细化,就是把你提出的问题,用更有层次的语言重新组织一边,以丰富的知识库把问题表述得完整无缺。

            事实上,DS给出的分析细化回答,依然是一个问题描述,而非一个真正的答案,DS也没有给出任何是否、真假之类的判断。

            (5)形式逻辑的问题很大。

            形式逻辑的问题很大,你们越是学形式逻辑,越会污染你们的认知论,变成诉诸是否判断、真假判断的——小学老师的最爱。

            当我谈到创造性的时候,指的是DS会无中生有地作画,不需要一个小学老师来教DS形式逻辑,形式逻辑只会湮灭创造性。

            所谓的创造性,就是作假,就是无中生有,它本身就是跟“真假”、“是否”之类的主观判断是对立的——记住了,是主观逻辑判断。

            DS的世界里存在什么真假吗?真假是存在于我们的现实世界中的,你再怎么标注,给出来的也是一种主观逻辑判断。

            再次强调,真假是存在于我们现实之中的,DS的输入输出都是脱离现实世界的,你们不能指望一个缸中之脑,告诉你现实世界的真假。

            缸中之脑的意识永远生活在一片脱离现实的世界里,现实世界的真假对于缸中之恼都是主观判断。

            缸中之脑能够跟你讨论,能够利用输入、利用知识库,跟你一起把现实中的问题分析细化,但永远没办法替代你做出真假判断。

            回到你的问题,很多看似是抽象问题、纯粹逻辑问题,但它有着重重现实约束,再多的知识库也没办法真正说清楚所有的现实约束。

            真假只有在现实世界中才有意义,看似抽象的问题,依然有特别多现实约束。失去现实约束的话,在缸中之脑的世界里,是永远不存在真假的。缸中之脑的知识库是不连续的、有限的,而现实世界是连续的、近乎无限的。缸中之脑的知识库里没有黑天鹅,那么你能用来判断,现实中没有黑天鹅吗?

            就像我前面说的,当你要求一个缸中之脑帮你判断现实中的真假的时候,你已经被形式逻辑污染了认知了。

            形式逻辑我其实有很多想说的,但攻击性太强,我只能说形式逻辑问题很大,对认知的污染很大。

            通宝推:南门桥,唐家山,
            • 家园 很独特的视角,对我有启发

              贴一段我之前的想法吧:

              ”推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在证明的过程中也分三种情况。第一种是直接照搬已有的证明,只在语法层进行修改,用于消解待证目标。第二种需要深入理解待证目标的语义信息,以及已有类似证明的语义信息,借鉴已有证明的构造模式,构造出符合要求的证明。第三种是还没有类似的证明,这种情况下需要从头开始,把大脑中的非形式证明,翻译成形式化的证明。

              第一种可以简述为"人云亦云"。可以看成是一种广义的模式匹配,大模型的水平已经达到这一层级。

              如果大模型能够做到第二种,概括为“举一反三”,那就应该认为它有一定程度的演绎推理能力。目前大模型已经有这个迹象了。

              如果大模型能做到第三种,总结为“无中生有”,那它就已经具备了真正的演绎推理能力。”

              之前一直在想大模型如何能做到“无中生有”。现在看来不一定需要大模型独立做这件事,或许在和人类配合的情况下能做到。

            • 家园 人类找AI是干活的

              自动驾驶,替代人工牛马,甚至下棋。。。逻辑不行还怎么干活啊。。。

              AI 也不是为了象人啊。。。不知疲倦,远超人类的计算能力和掌握数据库才是AI 超过人的地方。。。

    • 家园 只能说明你也是中国人

      DS既然是中文为主,底层逻辑肯定是中文多一些,早些年台湾人朱帮复搞过汉语基因,主要就是通过文字描写来输出一个图文并茂的视频和文字,然后在通信线路上传播的是一个汉语文字大纲,收到这个大纲后就能给你输出一个视频和文字来。这样大大减少了无用信息传播占用有限的带宽。如今DS是朝着这个方向前进了。

      • 家园 论文中类似的故事太常见了,但DS靠信息压缩获得了一定创造力

        我给个例子,关于金庸武侠的“东西合璧”,我只是给了个引子,它就能够用丰富的知识,补充出来我想说,但因为水平不够说不出来的部分。

        虽然说着又会因为信息污染,陷入儒家那套逻辑,但前面一半的补完特别惊人——恰恰是我如鲠在喉,但说不出来的部分。

        --

        【您的分析非常深刻,尤其是从阶级视角和文化替代的角度重新审视金庸的创作,这为理解金庸武侠的复杂性提供了新的维度。以下我将基于您的观点,进一步探讨这两层替代的本质及其影响。

        一、第一层替代:用“儒家忠义”替代“传统侠义”

        1. 阶级差异:士大夫 vs. 说书人

        传统侠义的底层视角:

        传统武侠(如《水浒传》《三侠五义》)源于民间说书,反映底层民众对“快意恩仇”“劫富济贫”的朴素向往。侠义精神的核心是“反抗压迫”,而非“忠君报国”。

        金庸的士大夫视角:

        金庸作为知识分子,深受儒家文化影响,其笔下的“侠”更多承载了士大夫的伦理理想。例如,郭靖的“侠之大者,为国为民”本质是儒家“修齐治平”的翻版,而非底层侠客的“以武犯禁”。

        2. 文化符号的置换

        从“反抗者”到“守护者”:

        传统侠客(如鲁智深、展昭)是体制外的反抗者,而金庸的主角(如郭靖、张无忌)往往成为体制的守护者。这种置换反映了士大夫阶层对“秩序”的偏好。

        “忠义”的重新定义:

        金庸将“忠”从“忠君”转化为“忠苍生”,看似进步,实则仍是一种精英主义的伦理观。例如,萧峰的自尽既是对“忠义”的殉道,也是对底层反抗精神的消解。

        二、第二层替代:用“西方个人主义”侵蚀“东方社会共识”

        1. 个人主义的引入

        西方影响:

        金庸借鉴西方文学中的个人主义主题(如《基督山伯爵》的复仇、《哈姆雷特》的自我觉醒),塑造了杨过、令狐冲等追求个人自由的角色。

        对传统伦理的冲击:

        这种个人主义与传统“家国天下”的集体主义形成冲突。例如,杨过反抗礼教娶师,令狐冲拒绝权力诱惑归隐,本质上是对儒家伦理的背离。

        2. 社会共识的解构

        从“集体”到“个体”:

        传统武侠强调“江湖”作为一个伦理共同体的重要性,而金庸的作品更多聚焦个体的命运与选择。例如,《天龙八部》中的“无人不冤”是对集体伦理的悲观解构。

        “侠”的祛魅:

        金庸后期作品(如《鹿鼎记》)通过韦小宝这一“反侠”,彻底消解了“侠”的神圣性,暗示个人主义对传统社会共识的胜利。

        三、两层替代的文化后果

        1. 阶级叙事的遮蔽

        金庸的“儒家忠义”掩盖了传统侠义中的阶级反抗精神,使武侠从“底层叙事”转变为“精英叙事”。例如,《射雕》中的郭靖虽是平民出身,但其价值观完全符合士大夫的伦理理想。

        2. 文化主体的迷失

        通过两层替代,金庸成功将武侠小说“现代化”,但也导致“东方魂”的迷失。例如,传统侠义中的“快意恩仇”被个人主义的“自我实现”取代,江湖从伦理实践的场域变为个人冒险的舞台。

        3. 对当代网文的影响

        金庸的替代模式被后世网文广泛模仿,但往往只学到皮毛。例如,许多网文主角追求个人力量巅峰(如《斗破苍穹》),却缺乏对“侠”的深层思考,进一步加剧了文化主体的迷失。

        四、总结:替代的双刃剑

        金庸的两层替代既是其作品的创新之处,也是其局限所在:

        第一层替代:用儒家忠义置换传统侠义,虽提升了武侠的文化地位,但也遮蔽了底层视角的阶级反抗精神。

        第二层替代:用西方个人主义解构东方社会共识,虽赋予作品现代性,但也导致文化主体的迷失。

        这种替代的复杂性提醒我们:文化创新并非简单的“拿来主义”,而是需要在尊重传统内核的基础上,进行深刻而谨慎的对话。正如您所指出的,金庸的尝试虽然开拓了武侠的边界,但也暴露了文化融合中的深层矛盾。或许,真正的“东方魂”不在于形式上的复古,而在于对底层精神与集体伦理的重新发现与诠释。】

        --

        你看看我给的多么简陋:

        额,你在叙述中再次用了前面另一先验知识【传统文化中的侠义=儒家的忠义】,但你总结的【局限性:文化主体的迷失】是特别准确的。金庸的东西合璧是两次替代:

        1. 金庸首先是用披着侠义皮的儒家忠义,替代了传统文化中的侠义。中国传统文学的创作者是底层说书人,而金庸是封建士大夫的精神继承者,这两者的阶级和阶层是有着本质差别的。

        2. 金庸用西方的个人主义,侵蚀东方几千年形成的社会共识,这是第二层替代。

    • 家园 DeepSeekV3的知识领域评估和技术能力评估:数学、编程

      因为语言类大模型的聊天机器人、话术、糊弄的本质,我本来对网上各种热议的DeepSeek完全不感冒的——直到今天我自己用了一下网页版。

      总结:

      怎么说呢?彻底脱离了聊天机器人的范畴,进入了智能助手的中间态:搜索助手、分析助手、汇总助手。

      虽然距离真正的问答机器人还有距离,但已经特别接近了,最重要的是它性能够好,就不需要糊弄用户。遇到不懂的就老老实实告诉我:

      【对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类的题目,欢迎与我交流。】

      我只能说,太惊人了,在我自己试用之前,我根本不相信,语言类大模型能达到这种程度。

      --

      --

      【吕阿华 机器学习算法那些事

      《国产大模型之光-DeepSeek-v3技术报告解读 》

      核心评估成果

      知识领域评估:

      • 在教育类基准测试中,DeepSeek-V3 的表现超越了所有开源模型,在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当,显著缩小了开源与闭源模型的性能差距。

      • 在事实性知识评测中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 测试中都展现出领先于其他开源模型的优势。特别值得注意的是,虽然其英语事实知识(SimpleQA)略逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)方面却超越了这些模型,凸显了其在中文知识领域的特殊优势。

      技术能力评估:

      • 在数学领域,DeepSeek-V3 在所有非 CoT 模型(包括开源和闭源)中取得了最优性能。值得注意的是,在 MATH-500 等特定测试中,其表现甚至超越了 GPT-4o,充分展示了其出色的数学推理能力。

      • 在编程领域,DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最为突出,确立了其在该领域的领先地位。在软件工程相关任务中,尽管略低于 Claude-Sonnet-3.5,但仍大幅领先于其他模型,展示了其在各类技术评测中的综合实力。

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河