主题:【原创】基于西西河发帖时间戳的河友发帖习惯分析 -- 菜根谭
果然是理不辩不明,我觉得这个工作值得一个主贴。
首先感谢 @兰州人 和某匿名河友,你们第一次提出相关性分析,说实话,开始时候我没想好怎么做。看完匿名河友的发言,一下子清晰了很多。
【原创】军情六局M16入驻西西河?(西西河发帖时间调查报告)
数据来源:www.talkcc.org
数据提取方法:爬虫(受上述河友启发)。
处理软件:Matlab
1. 按照上述匿名河友帖子启发,这个分析中也采用了类似的发帖频率图,但是后续我还要分析一堆被我屏蔽和怀疑的ID,这些ID发帖数量基本在100-500之间,如果采用30分钟的时间分辨率,48个点造成曲线噪声过大。
首先看下我的分析图是否和匿名河友的分析结果相似:
可以看到:
1. 时间分辨率下降到1小时不影响分析结果;
2. 燕人和翼德数据强相关,R=0.87;
3. 菜根谭和大胖子数据也有比较强的相关性,R=0.82;
4.我也引入了一个不具名的佚名河友数据,可以看到,相关性消失了。
(在Matlab中,我使用了Regress函数,在相关性很差时,Regress会返回负值R2,代表线性模型失效,所以这个无法给出R值)。
所以说以上匿名河友分析的数据是有效的,但是.....我是大胖子的马甲吗?
最简单的分析办法是引入另一个已知变量
@达雅
因为达雅批评我败人品,既然败过一回,那我就破罐子破摔,把达雅的数据也引入进来。
可以看到:
1. 我和大胖子的相关性R=0.82;
2. 我和达雅的相关性R=0.79;
这两个数字应该不能算是明显不同吧?
那么,那么,@达雅, 你也是我或者大胖子的马甲吗?
抛弃是不是马甲不谈,实际上这个相关性带来的很多有意思的结果,也给我Matlab编程创造了方便。
要下车了,先搞这么一段,其他有时间再发。
土鳖抗铁牛。
本帖一共被 1 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
🙂【原创】基于西西河发帖时间戳的河友发帖习惯分析
🙂挺有趣的分析,授权分析。 知其何休 字0 2024-04-16 00:56:43
🙂这些ID就是无聊而已 29 南寒 字926 2024-04-14 09:23:27
🙂不知道兄台以前是否常去mitbbs 4 匿名 字739 2024-04-16 00:59:44
🙂宕机前后网传说法,买买提是科大搞倒的 4 匿名 字585 2024-04-17 03:41:58
🙂有没有科大,也是要完 4 既然青春留不住 字753 2024-04-17 11:05:41
🙂Look回国就开始不行了 4 既然青春留不住 字364 2024-04-16 05:00:18
😄会不会菜根谭也是有点无聊 2 懒厨 字66 2024-04-14 22:27:14