西西河

主题:写在图穷匕见的前夜 -- 拜吨

共:💬21 🌺64 🌵1
全看分页树展 · 主题 跟帖
家园 推荐算法很无力的。只有删除视频才是“设置议题”

你上个帖子的“算法”我直接忽略了,推送在计算机领域属于【推荐算法】,这个我也熟,它的上限特别有限,会根据你的记录形成一种“自我茧房”的现象。但除非人工把某些视频的权重降为零(所谓的“人工降权”),否则这算法不会像删除视频那样——涉及“设置议题”。

--

先说比较短的“设置议题”。首先,你是否意识到,城市里看似自由但思想领域被控得特别死,这种控制是通过设置议题,而不在乎你的回答。在你回答是否之前,所有不能触碰的话题已经被自动过滤了。因而,对于已经设置好的议题,不论你回答什么,都是位于同一套框架下的,不论你回答什么,它都能通过设置议题强行改变你的注意力,让你的注意力永远停留在他们让你注意的话题,远离不能触碰的话题。通过强行改变注意力的方式,让你永远无法突破这套体系,这就是设置议题的威力。

其次,拜吨老哥你的回复和主题帖我也看了很多了,我的感受是,你对主流舆论设置的议题,表现出的是一种“既不完全同意、也不完全否定”的纠结状态,这个帖子的主楼是一以贯之的纠结。但你不会尝试自己设置议题、自己发现议题,甚至对我从主流框架之外设置的议题表现出了反感,对主流框架设置的议题特别依赖。当主流的框架容不下你的所有想法的时候,难道不应该突破这套框架吗?你是把你的所有想法非得重新按倒主流框架里面,削足适履,表现出来的就是我说的,对主流议题的纠结。

最后,就是我在这个帖子里一直追问你的问题:如果你的所有思考都是在主流框架设置的议题之内,你现实中的感受突破了主流框架的时候你选择削足适履塞入主流框架,那么,你这套理论就突破不了主流框架,又如何能够用来指导现实呢?

靠“既不完全同意又不完全反对”?

还是靠给主流框架打补丁但你又不知道从哪里挤出来补丁的成本?

这就是我一直在追问你的,当主流框架容不下你的思考的时候,恰恰应该是突破主流框架的时候,但你没有提出超出主流框架的地方,反而在疯狂给主流框架打补丁。如果主流框架有用,我们还上西西河干嘛?

--

解释一下我为什么要提上古史——自己设置议题,自己发现议题。当我发现被别人设置议题会形成思想钢印的时候,

第一、我出身农村,那么关于前三十年,我本来就有特别多不能触碰的话题可以用来设置议题;

第二、我去探索一些他们不熟悉、绝对不会被设置议题、又因为生产力限制社会解构特别简单的历史领域,也就是上古史。

第三、当我发现他们垄断了阶级、劳动、剥削的定义权并且从一共到三共不断修改诠释的时候,我自己设置一套“脱产和分配”的议题,来替代他们垄断定义权的那套话术体系。

所有这一切,都是为了突破主流框架通过设置议题,造成的思想钢印,也就是所谓的知见障。我是觉得,如果你突破不了主流框架,你又如何提出一套能够真正在现实中有用的指导理论呢?

你的所有用词,所有定义,所有逻辑都是在主流框架内,但你又发现不了这个框架努力隐藏起来的真正致命的弱点。

你从现实中发现了这套框架需要小修小补的地方,但你没办法在不增加成本的条件下完成修补。

你也知道现实是这套框架要么大修大补,要么推翻,即使我客观陈述,你最终的选择依然是小修小补,希望这套框架能够突然就好了。

--

推荐算法

(1)致命缺陷:只能用在手机中特别受限的"低交互"场景。反之,任何用户能够敲几个字搜索的场景下,推荐算法会被搜索引擎爆成渣,太弱了,不值一提的弱。

推荐算法是一个彻彻底底的老问题,最初用在电影推荐场景,也就是在电影评分网站,根据你看过的电影(你评分的那些、你喜欢的那些),推荐一些你可能喜欢的电影。

具体算法,就是统计你所有看过的电影、你所有喜欢的电影,从演员、类型、导演等各个维度去统计其中的“共现性”,然后推荐相关的电影。

在深度学习爆发之前,电影推荐是基于种种tag的——演员、类型、导演等等都对应着一些tag,推荐相关电影就是根据这些tag的统计推荐这些tag相关的电影。

推荐算法本身是一个很弱很弱,完全不值一提的算法。

(2)短视频领域的推荐算法:用户量、视频量创造的貌似厉害的奇迹。

请比较一下电影推荐和短视频推荐的各种数据量。首先,好电影本身就不多,用户数据不多,你观看的电影数目也不多,最终,即使算法再强,你也只能得到一个“矮子里拔将军”的不太满意的结果。

但到了短视频领域,特别是各种高质量创作者爆发之后,高质量短视频的数量就很多。然后,用户量很多、用户观看数据很多,你就能从海量短视频中把这些高质量的视频挑出来。最后,个性化推荐的用户,观看短视频的数目很多,每个短视频的观看时长都有记录。

结果就导致两点结果:

第一、在这种海量数据的支持下,再差的推荐系统也能保证一个特别高的下限。

第二、数据越多,算法能够闪转腾挪的空间越大,就能得到更大的模型,最终推荐系统的水准也越高。

(3)推荐结果实际上就是那么回事。

从深度学习,到各种AI,到语言类大模型,所有的都是:海量数据、大模型、大规模计算量、使用时候的高性能计算单元等叠加出来的一个“相对不错的”结果。

然后用这些结果,通过认知错位,去吹嘘多么智能,实际上不是这样的。其实就是一些普普通通的结果,并不神奇。

(4)但数据量级一大,你就很难拆穿它。

如果是一个电影推荐网站,普通人很容易就拆穿它了,不需要知道算法细节,你也知道它的推荐是多么不靠谱。

但短视频数据量能够掩盖一切啊,只要有足够多的高质量短视频,它推荐得差一点又如何?只要它不连续给你推荐你不感兴趣的视频,你都不会发现它的缺陷。

因为推荐算法限制了,不能连续推荐你不感兴趣的视频给你。所以,当你错过一个视频推荐的结果,那些不能回滚、又没有显式的记录推荐结果的推荐系统,就永远不会再给你推荐这个视频了。

这其实也算是推荐系统的一个缺陷,当你为了掩饰推荐系统的一个缺陷而在算法里加一些硬性的设置,必然会导致推荐系统的另一个缺陷。

推荐系统一般用于低交互领域,所以你也没办法打字告诉推荐系统“喂,再给我推荐刚刚推荐的结果”,结果是,推荐结果错过了大多再也找不到了。

(5)现在基于大模型的推荐系统,很难做一些“人工降权”的操作,所有人工降权到零的操作,其实是把短视频给删了。

大模型,大模型,大模型。好了,太大了,它不是靠人手动去操作的,都是自动化的。

你人工去看,里面全是一堆乱七八糟堆在一起的数据,所有数据一层一蹭抽象,一层一层关联,既没办法读懂,也没办法调整。

大模型其实就这种东西,里面的卷积层太多了,卷积参考微积分中的卷积操作,牵一发动全身,一改,整个模型就彻底了,彻彻底底的那种,连勉强用都没法用。

就是这样的技术限制,导致了大模型没法人工调整,全是自动化流水线训练出来的,整个流程时间又特别长,没有任何实时性能(注意,没有任何实时性,一般一个模型可以用很久)。

技术上就是这样一个东西,所有的删视频、屏蔽、降权,都是在大模型之外的推荐系统中实现的——简单说了,大模型就是一个绝对黑箱,你可以用,但除非重现训练一个,你根本没法改。

即使你重现训练,你也走一套自动化流程,你能改的特别有限,最终,你没办法订制你的训练结果。

注意:你没办法定制大模型的训练结果,它的训练和使用都是绝对黑箱,它根本不听你指挥,你只能调整的地方特别少。

很多非理工科的人讨论技术细节的时候,特别容易把社会代入理工科,觉得对大模型提一个要求,它就要自动满足你这个要求,否则就让大模型好看,但大模型不听啊。

--

大模型是一个锁得严严实实得绝对黑箱,所以网上新闻和媒体各种利用认知错位制造的起哄,我一般都是直接忽略的,

毕竟,只要我做过的,也算我的专业领域,虽然我做过的大多数不太深入,但问题就是那个问题,所有大模型都是拿数据量、计算量换性能这一点也是不变的。

因为你们担心的所有问题在研究中和算法中都是不存在的,是媒体故意利用认知错位制造出来的“讨论话题”。

“讨论话题”不是一个真正的问题,所以只要涉及我了解的领域,这种讨论话题我都是直接忽略,没有意义,也没有讨论的价值。

“讨论话题”只有在你不了解一项技术的上限和下限,不了解应用场景,把它当成万能钥匙,才能讨论得热火朝天,但理工科不认这些的。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河