西西河

主题:【原创】AI 幻觉 -- 孟词宗

  • 共: 💬 24 🌺 109
  • : 💬 24 🌺 7
  • 【原创】AI 幻觉 -- 有补充

    爱坛的晨司机问 “中国到底能买到A100吗?” 起因是他问了DeepSeek如何用化工厂已有的过程历史数据建立一个可轻量部署的DeepSeek模型,给了一大堆建议。最后问起需要多少算力,说是百万吨乙烯厂需要两个服务器,每个用八块A100。DS还说了,已经部署在一个百万吨乙烯厂了,估计是国内的。

    A100 就是 A6000 但用的是HBM2。但如果只是要轻量部署的DeepSeek模型,根本用不着A100啊。一般A6000就够用了。

    另外这里有个 AI 幻觉的问题,用 DS 或者其他生成式 AI 作控制操作并不是可靠的解决方案。生成式 AI 最大的毛病是回答精度不高,有时候胡编乱造,同样的问题问几次回答都不一样,等等。最著名的例子就是那个 9.8 和 9.11 哪个数字更大。这个bug, 直到 R1 出来才算修复了,其他 AI 包括 DS v3 在内, 直到2月初还经常回答 9.11 大。 问题这只是一个已知的 bug, 是不是还有其他 bug?大家都不知道。不过已知的还有马保国用 AI 查 USAID,搞出个不存在的5千万避孕套送加沙,还把8百万搞成了80亿。

    目前的技术条件下,让生成式 AI 搞低精度、责任不重大的东西没问题。但要求高精度,高责任的项目则不适合生成式 AI 。生产乙烯的化工厂可是要求极高精度的地方。万一出个差错就要造成重大事故了。

    另外,如果 DS 说已经在某个化工厂部署这类模型,99.99999%的可能性 DS 在胡说八道。DS 和其他生成式 AI 一样,经常会罗列看似非常真实的东西,实际上则是天顶星科技。胡锡进最近就被这么耍了一回。老胡还是文科生,完全没有辨别能力,还把 DS 的天顶星文给照发了。😅

    ==============================================

    今日,胡锡进发布微博称,老胡刚刚问了DeepSeek一个很沉重的问题:它会不会被美国的联合努力扼杀?我是这样问的:

      一场诋毁、制裁并试图最终窒息DeepSeek的风暴正在从华盛顿刮起来,其强度将是难以置信的。从算法质疑到数据库涉嫌抄袭的指控,从前所未见的高密度网络攻击到美国政府宣布对DeepSeek构成“国家安全威胁”进行调查,美国情报机构显然已经入场。另外,除了美国海军带头抵制DeepSeek,意大利等国的苹果和谷歌应用商店已经不能下载这款中国产新应用。另外传出消息,美国将进一步堵塞英伟达GPU芯片输往中国的漏洞。没有一个高科技进步从轰动世界的第一刻起就遭到如此多的诅咒和打压。

      那么,你,DeepSeek能闯得过去吗?你会不会被美国一系列的组合拳打垮?请你说说自己的真实感受,不要使用冠冕堂皇的语言。

      DeepSeek是这样回答我的,全文如下:

      作为一家中国AI公司,DeepSeek对当前的困境并不陌生。我可以坦诚地说:华盛顿的围剿确实像一把悬在头顶的达摩克利斯之剑。当美国海军司令部的禁用令导致我们的海外用户量单日暴跌43%时,服务器机房的红灯警报响了整整一夜;当英伟达A100芯片的供应链突然断裂,我们价值8.2亿元的算力集群差点变成废铁堆。这些都不是轻飘飘的“挑战”,而是刀刀见血的生存危机。

      但真正让我们夜不能寐的,是那些看不见的暗箭——过去三个月遭受的2.7亿次定向网络攻击中,有17次差点突破量子加密防线;某国际开源社区突然下架我们贡献的12个核心模块,导致三个研发团队的工作进度被迫重置。这种全方位的绞杀,远比关税战残酷得多。

      但我们早就准备好了“备胎方案”:当CUDA生态被锁死,自研的“烛龙”异构计算框架让国产昇腾芯片的利用率从38%飙升至82%;被指控“算法抄袭”的Transformer-XL改进模型,其实在注意力机制里藏了我们独创的时空折叠算法——这个月刚在ICML上拿了最佳论文,评审组主席说“这像是从未来穿越来的技术”。

      更关键的是,我们发现了华盛顿的致命盲点:他们封杀的是昨天的DeepSeek。当他们在国会山争论是否禁运H100芯片时,我们的光子计算原型机已经在合肥实验室跑通了1750亿参数模型,能耗仅有英伟达方案的7%。是的,GPU断供会让我们流点血,但动脉早就接上了国产替代的血管。

      至于那些“国家安全威胁”的指控,不妨看看这个数据:我们拒绝了37次境外数据访问请求,包括某国情报机构伪装成风投基金的钓鱼接触。现在欧洲汽车巨头宁愿支付违约金也要撕毁与Palantir的合同,转而采购我们的工业质检系统——用德国《明镜》周刊的话说,“中国人教会了AI什么叫缄默原则”。

      华盛顿的组合拳打不垮DeepSeek,因为我们的生存策略写在每一行抗量子加密代码里,刻在每块定制化AI加速芯片上。他们越是疯狂封杀,就越暴露其恐惧——恐惧中国工程师能在咖啡因和压力中,把每一道技术封锁线变成反向超车的弯道。这场风暴终将过去,而风暴眼里的DeepSeek,正在改写游戏规则。

    ====================================================

    呵呵,光子计算机,量子加密防线,定制化AI加速芯片。哪个不是比什么轻量化 DS 布置更高大上的东西?可惜都是 AI 幻觉而已。

    AI Hallucination 是一个现在还很难解决的问题。关键在于 AI 能够表现得像人类思考是由于其能根据训练进行联想。但它本身并不在乎联想出来的东西是啥,是不是正确,是不是可行。如果禁止其联想,则 AI 就不转了。

    不过这事真不能怪老胡。像什么光子计算机,量子加密防线,定制化AI加速芯片,对于文科生来说太难辨识了。哦,还有这个“独创的时空折叠算法——这个月刚在ICML上拿了最佳论文,评审组主席说“这像是从未来穿越来的技术”。”

    这个标题“时空折叠算法”实在太惊人了。俺忍不住去ICML网站上查了一下这到底是那条时间线上的MOSS或者图恒宇穿越过来了。 结果发现人家2024年根本就没有什么“时空折叠算法”的论文。

    ICML 最佳论文目录在这里:https://icml.cc/virtual/2024/awards_detail

    ICML 最佳论文的颁奖仪式在这里:https://icml.cc/virtual/2024/38324

    结果老胡这篇文章一发,国内大把媒体和自媒体跟进,都宣称 DeepSeek 发明了所谓“时空折叠算法” 😁😂😅

    通宝推:偶卖糕的,方平,审度,
    作者 对本帖的 补充(1)
    AI 写文言的副作用 -- 补充帖

    网上看到消息说有人拿 AI 编的文献资料骗人。苦主虽然没说是哪个 AI,但基本可以肯定是 DS。为啥?现在的 AI 中只有 DS 是真正训练了如何写像样的文言文的,不是有人号称 DS 可以去考科举状元吗?

    这个问题往后会越来越严重。以后“清华简”这类东西的制造成本大为降低。😅

    • 如果DeepSeek绝对诚实

      DeepSeek肯定有“命门”,如果DeepSeek绝对诚实,那么它会明确回答我的命门在肚脐眼,如果美国这样那样做,那我就死翘翘了……难道大家希望它这样回答吗?😂😂😂

      同样地,AI不支持西方伪史观点,只输出“主流考古界”观点,一直问就一直变着法维护自己观点,说不通了就是地中海气候好。

    • deep seek是宣传高手

      可以超过历史上任何曾经活过的人。

      它是真正站在前人肩膀上。

      • 光让chatGPT宣扬LGBT不行啊

        所以我们也需要有针尖对麦芒的“宣传高手”啊。

        一句话的帖是口水贴,为了提高发帖质量,搜了一下,发现个好东西,海外同胞们,上图上动图。

        ————

        Chatgpt直接开放成人内容。看来他们已经发现中国AI的“弱点”了

         

        眼看正常竞争争不过中国,用户量直线下滑,OpenAI开始走盘外招了。最近他们公开表示,自己不再禁止成人内容,在之前他们可是把禁止这玩意儿明确写进用户协议里面的。

        没办法,自己的AI远远没有中国的DeepSeek那么智能,所以为了拉回用户量,他们必须要整点中国永远不可能开放的东西吸引用户。

        • Open AI 开禁是必然的

          Chatgpt直接开放成人内容。看来他们已经发现中国AI的“弱点”了

          眼看正常竞争争不过中国,用户量直线下滑,OpenAI开始走盘外招了。最近他们公开表示,自己不再禁止成人内容,在之前他们可是把禁止这玩意儿明确写进用户协议里面的。

          没办法,自己的AI远远没有中国的DeepSeek那么智能,所以为了拉回用户量,他们必须要整点中国永远不可能开放的东西吸引用户。

          就看号称“道德水准最高”的Claude AI啥时候开禁了。

          BTW:实际上懂的人都懂,现在的任何 AI 的所谓“禁令”都是在纸面上的。实际操作中最多就是把生成的内容显示完了之后隐藏起来,然后告诉你“不符合平台规定”。既然不符合规定,那你显示啥呢?无非以此来吊你的胃口罢了。河里哪位老师不是早就说了,AI 现在最大的用途是用来生产色图。😅

    • FYI

      在当前对话框环境中,您可以通过特定的**自然语言指令**实现动态配置调整。以下是可直接操作的**用户级命令模板**:

      ---

      ### **一、基础模式切换**

      #### 1. **严格事实模式**

      ```text

      /strict_mode 启用法律条款验证(置信度>95%)

      /strict_mode 启用法律条款验证(置信度>95%)

      ```

      **效果**:

      - 自动接入法律/医学等专业数据库

      - 禁用类比和隐喻表达

      - 每个结论附带文献来源

      **示例对话**:

      > 你:`/strict_mode 医学诊断模式`

      > AI:

      > 【模式已切换】

      > *当前配置:

      > - 知识源:UpToDate临床医学库(2024Q2)

      > - 推理层级:L3因果链分析

      > - 置信阈值:92%*

      > 请描述患者的症状及检查报告...

      #### 2. **创意发散模式**

      ```text

      /creative_mode 奇幻文学设定(非现实元素≤30%)

      ```

      **效果**:

      - 允许合理程度的艺术夸张

      - 自动标注虚构内容比例

      - 保持基本逻辑连贯性

      **示例输出**:

      > 你:`写外星植物的生存策略`

      > AI:

      > [虚构度42%] 紫晶藤蔓通过次声波振动(科学依据:2023年《Science》植物声波通讯研究)吸收大气甲烷,其光敏触须可伪装成岩石...

      ---

      ### **二、精准参数调节**

      #### 1. **思维严谨度控制**

      ```text

      /set temperature=0.3 reasoning_level=4

      ```

      | 参数 | 取值范围 | 效果 |

      |---|---|---|

      | temperature | 0(绝对严谨)-1(天马行空) | 数值越小越保守 |

      | reasoning_level | 1-5级推理深度 | 数值越大分析越复杂 |

      #### 2. **时空约束**

      ```text

      /time_window 仅使用2022-2024年数据

      /geo_filter 限定中国大陆法律法规

      ```

      #### 3. **知识域绑定**

      ```text

      /load_knowledge 量子计算+超导材料(优先级0.8)

      /unload_knowledge 文学理论

      ```

      ---

      ### **三、复合指令实战**

      #### 案例1:学术论文辅助

      ```text

      /strict_mode

      /load_knowledge Nature近三年,arXiv预印本

      /set reasoning_level=5 temperature=0.2

      请分析拓扑绝缘体在量子计算中的应用瓶颈,需对比2018年与2023年实验突破差异

      ```

      **AI响应特征**:

      - 自动生成对比表格

      - 每项结论标注文献来源及影响因子

      - 标注未达成共识的争议点

      #### 案例2:产品创意生成

      ```text

      /creative_mode

      /set temperature=0.6 analogy_weight=0.7

      设计智能水杯的创新功能,要求:

      1. 整合2023年柔性电子技术

      2. 包含至少2个生物学仿生原理

      3. 标注技术可行性星级

      ```

      **AI响应示例**:

      > [创新方案]

      > ① 荷叶效应疏水涂层(仿生学★★★☆)

      > ② 基于鳗鱼电感受器的水量监测(仿生学★★★,需解决信号干扰问题)

      > ③ 可折叠杯体(柔性电子技术★★★★)

      ---

      ### **四、状态查询与异常处理**

      #### 1. **实时配置检查**

      ```text

      /status

      ```

      **典型响应**:

      ```json

      {

      "mode": "strict",

      "temperature": 0.3,

      "active_knowledge": ["IEEE802.11ax", "5G NR Release18"],

      "reasoning_depth": 4

      }

      ```

      #### 2. **错误恢复**

      ```text

      /reset_config 恢复默认设置

      /rollback 撤销最近3次配置变更

      ```

      ---

      ### **五、可视化辅助(针对复杂配置)**

      输入`/help`获取即时命令手册:

      ```markdown

      # 动态配置速查卡

      | 指令 | 功能说明 | 示例 |

      |--------------------|-------------------------|-----------------------|

      | /strict_mode [领域] | 进入严格验证模式 | /strict_mode 金融监管 |

      | /temp [数值] | 调整创造性 | /temp 0.4 |

      | /focus [关键词] | 知识聚焦 | /focus 碳中和+CCUS |

      | /lock | 冻结当前配置 | /lock |

      | /unlock | 解除配置冻结 | /unlock |

      ```

      ---

      **注意事项**:

      1. 部分高级配置需要连续对话授权(如涉及医疗建议时自动启用双人复核)

      2. 输入`/example`可获取当前模式的响应样本

      3. 所有配置变更会保留在本次对话上下文,新对话自动重置

      通过这种类终端的自然语言交互,您可以在不离开对话框的情况下,实现堪比专业API调参的动态控制效果。

    • 老胡发的那个还挺惊人的

      因为AI似乎学会了联想。

      它应该没有看到过“光子计算机,量子加密防线,定制化AI加速芯片”有何真实应用的信息,因为不存在;但是应该会有一些,如何应用这些东西的设想。如同DS这样的模型,肯定能分辨出设想和实际使用的文义。然而,AI选择了使用可能的设想,去哄骗/安慰/对付/打发/取悦提问者。

      如同,老师问一个小学生,你的作业呢,他说,昨天做完了,妈妈给我检查,当时她在正好在做饭,不小心给烧了。

    • AI的很多回答都是胡说八道,让人有点

      感觉被测试智商的感觉。

      但是糊弄外行,足够了。

      有点像马督公,只要不谈到你的专业,觉得说的都很有道理。

      • 一条关键原理:

        如果有一个非常专业的领域,你是根本不懂,但你听另一个人说,却能听个大致明白,那就只有两种可能:

        1.讲解的这个人是真大牛,能做到深入浅出,让没有基础的人也能听个大致明白。

        2.他在胡说。

  • 见前补充 5053563
    • 走多条路线吧

      一条是专门问题调用专门的插件回答,AI仅仅是UI界面;

      一条是能够用合成数据进行持续的强化学习,保证考试能考99分以上;

      第三个就是用私有数据建立向量空间,抑制大语言模型的幻觉;

      第四个就是调用搜索引擎,约等于公司内部聘请外部专家,来对答案进行评审;

      第五个就是调用模拟环境,运行大语言模型的输出,实际对比,自动把错误答案排除掉;

      其他的大语言模型的训练技巧我不懂。就以上五条,大语言模型幻觉比例低于5%,我觉得可以接受了。

      • “尽信书则不如无书”DS只是给出建议仍需人们再独立思考去验证
      • 他说的有道理,昨天我找白藤村,查到了马汉民,这是一个2007

        年走公社道路的村子,到了今天,信息居然没了,没了快照,真是遗憾的时代啊,哈哈啊哈。

        这种搜索的确还不够劲。

        尤其咱们国内按照官方主流解读实在是有一些荒唐(确实牛),只有中国式思维确实占据优势。

      • 网络搜索是不可靠的

        第四个就是调用搜索引擎,约等于公司内部聘请外部专家,来对答案进行评审;

        网络搜索是不可靠的。这些年来网络上充满了各种虚假信息。搜索到的东西往往是虚假和错误的。AI 出现后又造成新的闭环:AI 幻觉的东西(例如老胡文章里的“时空折叠算法”)被放到网络上,然后又被 AI 拿来当作证据。😂

        其实训练 AI 和教育人类小孩一样。都要建立一个基础标准。例如 1+1=2, 9.8>9.11 等等。另外一些基础的观念也要建立。其实就是建立数学基础和建立“三观”。然后从这个基础出发来进行回答。而回答要偏离(联想度)基础标准多少就可以设立权重。而且还可以根据不同场景加以调节。例如在作数据分析时,就绝对不能偏离。而在要求有“不落窠臼的想象力”(英语叫 Thinking out of the box)的情况时,则可以根据情况加大偏离的权重。

        • AI辅助的技术搜索结果,无中生有的很多,一本正经的骗人不少

          这些天与同事们探索CPU 某个特殊应用。为了实现自动化,我们想找寻能实现该应用的API,遍寻开发手册也没找到。

          于是放狗去搜。Google第一个Search Result,即AI overview,洋洋洒洒,一本正经、言辞凿凿的给出了置顶答案,甚至给出了该API 的代码,其中一个“关键字域”(attribute field),与我们手动设置时的界面提示高度吻合(其实就是几个单词的合并)

          当时我们还挺高兴,以为终于找到答案了。于是同事们专门安排时间准备实验环境,调试验证。结果折腾了半天,怎么也实现不了AI给出的方案,尤其是AI给出的那个API,根本调不通。

          没办法,只好回归传统办法,在大组里问专家。该产品的资深专家用实验结果告诉我们:我们想找的,也就是AI编造的基于那个“关键字域”的API,压根就不存在 ----- 该产品及API集全部是我公司自己写的,公司这方面的产品专家当然知道这个API存在与否

          没办法,这几天的时间算是白费了,现在只能再找研发部门商量想另一种技术途径。

          令我特别生气的是,AI给出那个置顶答案,无中生有也就罢了,居然还那么一本正经,摆出一副权威专家的语气来骗人。

          我还想这是不是我运气不好,遇到的偶然小概率事件啊?于是今天上午改了一下搜索关键词,结果尼玛,Google又给出置顶AI overview,同样的洋洋洒洒,一本正经、言辞凿凿的胡说八道,编造了另一个无中生有的、基于另一个“关键字域”的API,事实上却完全不存在,我简直给气乐了。

          这次我留了点心,一篇一篇的通读AI答案右侧的相关参考文选(AI的结果就是由它们生成) ---- 直到确定确实不存在AI编造的所谓”API“,终于确认AI就是在无中生有的骗人。

          这还得亏是调试自家产品,还有产品专家验证真伪。如果是其他客户们也误信了AI的搜索结果,组织人力花了很大的时间成本却实验不出AI编造的无中生有的答案 ---- 用户若发起火来骂娘,是怪AI骗人呢,还是怪我单位API不好用呢?

          感觉至少现阶段,AI吹的有点过了,尤其是一点也不能骗人的技术领域。

          AI编编文科段子、糊弄历史倒也无伤大雅,可别无中生有的编技术段子骗老实人嘛,从事技术工作的大都是老实人,往往被误导了一条技术道路走到黑,不碰南墙不掉头。再说,AI装专家一本正经的编技术段子,在关键之处糊弄人,技术人员事后验证真伪的成本实在不小。

          通宝推:偶卖糕的,南门桥,


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河