主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭
首先声明一点:我玩鉴别马甲,是很多年前的事了。很多相关技术在不断进步,因此我写的这些,只能是仅供参考。
用发帖时间相关性鉴别A是否是B的马甲,是基于一个主观假设:即A与B如果发帖时间相关性很高,那么他们大概率互为马甲。
很可惜,这种假设是比较简单粗糙甚至粗暴的。一个极端的反例:如果A看B不爽,且有大量时间泡在河里,时时关注B的每一个发帖。一旦B发了任何贴,A立即追着发帖骂 ----- 这种场景下,A与B的发帖相关性接近于1.0 ---- 能说A是B的马甲嘛?
更一般性的例子,譬如我生活在北美,一般周末或者美国特有的假期,发帖时间比较多。如果有另外一位不相识的但同样生活在北美的河友也是这么个习惯,那么我与他就一定互为马甲?
想有效的鉴定马甲,技术路线有很多种。但是,仅用发帖时间相关性----- 这么一个特征向量,是远远不够的。严格说,这个特征向量,尚未触及到鉴定马甲的真正技术实质。
比较专业的方法,是通过用户的发帖文本特征的相似性来鉴别每一个用户。对每个待分析的用户,抓取其发帖的大量文本,进行自然语言处理(NLP),即进行分词、语法分析、语义分析、建立实体(entity)数据库, 提取出所有相关文本特征向量(X个)。因为发帖类型不同,可能还得分类(Classification),当年我们作新闻时,分为八大主类、N个小类,比如政治新闻用语肯定与商业、体育等类完全不同(如何有效分类,则是另一个专业技术范畴,这里略过不谈)。
完成以上工作后,先拿其中的80%数据作为训练样本,通过某种Machine Learning算法(简单的比如SVM),学习出每个特征向量的权值。
最后就是用剩余的20%数据,测试你训练的结果是否有效。如果无效,那就得回头抓取更多的文本样本,作更细化的分类,提取更多的文本特征向量 ---- 重新训练,如此循环。
另外,由于用户的发帖习惯会随着时间改变,所以训练得不断更新。
看到这里:我真正的想说的话,兄台应该已经明白了 ---- 您真值得花这个功夫搞马甲鉴定嘛?
如果真想搞,不如考虑去Google、Bing、百度做个Sabbatical ,看看人家专业公司的现成工具都用了啥。
毕竟隔行如隔山,很多看似简单的事,也是需要比较多的技术积累的。
下河嘛,聊个天而已。合则回,不合则划过而已。有那个功夫,看点开心的帖子,不亦乐乎?
- 相关回复 上下关系8
😂南寒河友你这是拍着和尚骂秃驴 2 审度 字0 2024-04-16 02:46:17
😄知我者,南寒兄也! 2 懒厨 字219 2024-04-15 21:39:39
🙂别费劲了,其实沉默的大多数 10 莫问前程 字152 2024-04-14 02:16:43
🙂用发帖时间相关性鉴别马甲,并不是很有效的方法
😂您这是工程思维,太较真了 3 zwx650 字363 2024-04-16 10:34:36
🙂马甲只是表面现象 9 唐家山 字178 2024-04-15 20:26:08
🙂确实如此!即使原来不是,马甲用时间久了,也会趋向精神分裂的 凤城 字0 2024-04-15 23:01:22
🙂专业。 雨楼 字0 2024-04-15 14:36:49