西西河

主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬123 🌺338 🌵12新 💬11 🌺3
全看分页树展 · 主题 跟帖
家园 大模型是数据库+信息检索的融合,知识抽象程度既看前者也看后者

只是相关领域,并非大模型领域,但数据索引+搜索算法这块可就是我专业的领域了。

大模型与过去的数据库、数据索引、信息检索比起来,最大的特点是数据库、数据索引、信息检索全融合到一起了,而不是过去孤立的。

所以,大模型才能做到比任何数据索引+信息检索算法更快的搜索结果。而大模型与数据库最大的区别是,大模型把数据抽象成了知识。

大模型把数据抽象成了知识,这个是所有语言类大模型都在做的,而深搜我认为里程碑的一点,不仅表现在模型大小上,更是表现在搜索上。

1. 模型大小。

首先,模型大小不能直接以参数大小估计,你不知道参数的稀疏程度是怎么样的,所有高维模型,经常有大量零值的参数,即算法没把模型用到极限。

DeepSeek(深搜)作为一个独立推动的模型框架,无疑是符合这一点的,而过去的那些基于同一个框架的大模型,毫无疑问参数空间用得更多。

模型大小本身在网上也有数据,我记得是671G,结果你们纷纷告诉我参数怎么怎么样多。(模型文件大小,根据版本不同,最小1.1GB, 最大671GB。)

这也就是为什么在你这个回帖之前,我都懒得再发回复说明这一点,如果连一些最基本的常识都不清楚,我还非得去解释不成?

第一、如果比模型大小,连直接比模型大小都不会,只会比参数大小,那我说又能说啥,我又该说啥?

第二、比模型大小,首先你要选那些性能接近的模型,深搜之前有性能能超过OpenAI最新模型的模型吗?有的话轮的到深搜?

如果你不懂的性能曲线的含义,不懂得在OpenAI最新模型性能往上提升一个级别的含金量,不懂开源模型和闭源模型的性能鸿沟,那我说啥?

2. 搜索速度,这个碾压了吧?这个总该没有疑问了吧?这个性能曲线完全爆表到没办法用OpenAI的行能来防守了吧?

首先,你模型特别大,搜素速度还能上的去,我就从来没见过,模型小和算法好,两者兼备,才能把速度上升一个级别。

其次,所有的大模型最终考验的是预测、决策时候的性能曲线,用得好不好,反应快不快,我还不知道吗?国内一大票大模型知耻。

搜索速度上去了,就是从最终结果上,说明DeepSeek(深搜)的知识抽象程度高,否则你搜索速度根本上不去,靠GPU飙上去的啊?

3. DeepSeek的花费的时候也说了,算力是完全被碾压的,不论是训练的时候,还是预测和决策的时候,性能曲线能够反压,当然是算法的胜利。

算法>算力,但算法太难了,所以大多数时候,大家都是在原有算法那里微创新,然后拼算力、拼数据。

不是大家不想拼算法,而是风险太大了,没人敢做主,微创新风险就小很多,胜有功,失败也是理所当然的。

真的出现算法突破的时候,谁敢不跟风?但并不是大家不知道算法厉害才是真的厉害,你看看现在国内外有多少个跟风?

4. 最后的最后,我是因为只是相关专业,才不敢打包票,才只敢从我懂的角度,给出一些预测。

天天在网上洗地的有傻子,做最前沿的没有傻子,特别是DeepSeek在大模型中属于绝对廉价的,不跟风才是傻子。

那个飞来飞去的li feifei都抢跑到发论文了,这就是最好的证据。DeepSeek绝对是里程碑式的成果,也是当初chat-gpt之后到现在最重要的里程碑。

5. 补充一下,“知识抽象”在大模型领域的术语叫“知识蒸馏”,也就是OpenAI无端指责深搜的借口,但li feifei他们正在做的事情。

Qwen(阿里通义千问)2.5已经证明DeepSeek的模型是最好的。现在li feifei他们的论文好像是在证明DeepSeek蒸馏小模型的手艺是最高的。

我没详细看,是因为我又不是做这个方向的,我现在用深搜还来不及,我去管一个飞来飞去的li feifei做什么干嘛?

只要你是做相关行业的,你就知道DeepSeek的含金量,在当前的时间点上,不论深搜的框架,还是深搜蒸馏的手艺,都是世界之巅。

这就是里程碑的含金量,在这个时刻为止。(模型我不是世界之巅我不清除就不乱说了。)

通宝推:桥上,曾伴浮云,铁手,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河