主题：这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬123 🌺338 🌵12新 💬11 🌺3

大模型是数据库+信息检索的融合，知识抽象程度既看前者也看后者

只是相关领域，并非大模型领域，但数据索引+搜索算法这块可就是我专业的领域了。

大模型与过去的数据库、数据索引、信息检索比起来，最大的特点是数据库、数据索引、信息检索全融合到一起了，而不是过去孤立的。

所以，大模型才能做到比任何数据索引+信息检索算法更快的搜索结果。而大模型与数据库最大的区别是，大模型把数据抽象成了知识。

大模型把数据抽象成了知识，这个是所有语言类大模型都在做的，而深搜我认为里程碑的一点，不仅表现在模型大小上，更是表现在搜索上。

1. 模型大小。

首先，模型大小不能直接以参数大小估计，你不知道参数的稀疏程度是怎么样的，所有高维模型，经常有大量零值的参数，即算法没把模型用到极限。

DeepSeek（深搜）作为一个独立推动的模型框架，无疑是符合这一点的，而过去的那些基于同一个框架的大模型，毫无疑问参数空间用得更多。

模型大小本身在网上也有数据，我记得是671G，结果你们纷纷告诉我参数怎么怎么样多。（模型文件大小,根据版本不同,最小1.1GB, 最大671GB。）

这也就是为什么在你这个回帖之前，我都懒得再发回复说明这一点，如果连一些最基本的常识都不清楚，我还非得去解释不成？

第一、如果比模型大小，连直接比模型大小都不会，只会比参数大小，那我说又能说啥，我又该说啥？

第二、比模型大小，首先你要选那些性能接近的模型，深搜之前有性能能超过OpenAI最新模型的模型吗？有的话轮的到深搜？

如果你不懂的性能曲线的含义，不懂得在OpenAI最新模型性能往上提升一个级别的含金量，不懂开源模型和闭源模型的性能鸿沟，那我说啥？

2. 搜索速度，这个碾压了吧？这个总该没有疑问了吧？这个性能曲线完全爆表到没办法用OpenAI的行能来防守了吧？

首先，你模型特别大，搜素速度还能上的去，我就从来没见过，模型小和算法好，两者兼备，才能把速度上升一个级别。

其次，所有的大模型最终考验的是预测、决策时候的性能曲线，用得好不好，反应快不快，我还不知道吗？国内一大票大模型知耻。

搜索速度上去了，就是从最终结果上，说明DeepSeek（深搜）的知识抽象程度高，否则你搜索速度根本上不去，靠GPU飙上去的啊？

3. DeepSeek的花费的时候也说了，算力是完全被碾压的，不论是训练的时候，还是预测和决策的时候，性能曲线能够反压，当然是算法的胜利。

算法>算力，但算法太难了，所以大多数时候，大家都是在原有算法那里微创新，然后拼算力、拼数据。

不是大家不想拼算法，而是风险太大了，没人敢做主，微创新风险就小很多，胜有功，失败也是理所当然的。

真的出现算法突破的时候，谁敢不跟风？但并不是大家不知道算法厉害才是真的厉害，你看看现在国内外有多少个跟风？

4. 最后的最后，我是因为只是相关专业，才不敢打包票，才只敢从我懂的角度，给出一些预测。

天天在网上洗地的有傻子，做最前沿的没有傻子，特别是DeepSeek在大模型中属于绝对廉价的，不跟风才是傻子。

那个飞来飞去的li feifei都抢跑到发论文了，这就是最好的证据。DeepSeek绝对是里程碑式的成果，也是当初chat-gpt之后到现在最重要的里程碑。

5. 补充一下，“知识抽象”在大模型领域的术语叫“知识蒸馏”，也就是OpenAI无端指责深搜的借口，但li feifei他们正在做的事情。

Qwen（阿里通义千问）2.5已经证明DeepSeek的模型是最好的。现在li feifei他们的论文好像是在证明DeepSeek蒸馏小模型的手艺是最高的。

我没详细看，是因为我又不是做这个方向的，我现在用深搜还来不及，我去管一个飞来飞去的li feifei做什么干嘛？

只要你是做相关行业的，你就知道DeepSeek的含金量，在当前的时间点上，不论深搜的框架，还是深搜蒸馏的手艺，都是世界之巅。

这就是里程碑的含金量，在这个时刻为止。（模型我不是世界之巅我不清除就不乱说了。）

通宝推：桥上,曾伴浮云,铁手,

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友