主题:【讨论】受某网友启发,关于马甲的简单分析和讨论 -- 匿名
在一个最近比较火的贴【原创】军情六局M16入驻西西河?(西西河发帖时间调查报告)中,我看到了一些关于马甲的分析和暗示。
从中受到启发,我觉得很有意义的一点是,假如一个人长期上某网站,那么不管是在甲时区睡觉也好,在乙时区上班也罢,总有一些时间是来西西河发帖较少的,而在另一些空闲时间是来西西河发帖较多的。有的人睡觉上班时间极不规律可能形成比较缓和的分布,另一些人可能只在少数特定时间上网,形成尖锐的分布。所以一个人发帖的时间分布相当于某种指纹,可以由此辨识不同ID背后的自然人。注意这不完全依赖于时区,而且对于动辄几年甚至十几年的发文历史数据,也很难伪装。在大量数据下,不同人之间达到高相关,不能说完全没有,但很难。当然,相关系数多高算高,确实需要从实际数据中去摸索,比较。
对网络公开数据的分析,我总是有一种顾虑。如前面提到的那个帖,作者悍然把别人上网的时段公开,我是觉得不妥的。我们每天不戴口罩出门,确实给了路人看我们脸的权力,但是这并不是让渡给他人对我们一天的生活轨迹录像并传播的权力。因此我在这帖内不会公布任何ID具体的发帖时间。
我只是读取一些ID的发帖时间后,把这些发帖时间在一天不同时段(分辨率半小时)的概率分布,和另一些ID进行相关,再绘图公开。这样你能看到,ID甲和ID乙同时在某个时间高频发帖,但是具体是哪个时间,你是看不到的。同时,我也不会任意选取ID公开。我只会从前面提到那个主题帖中热情回复或者宝推的ID中(某种意义上,这表达了他们对这类行为的赞许)选取一小部分进行公开。以尽量避免侵犯他人隐私。
首先,我给大家看看两对任意选取的ID发帖时间关系,此处匿名。
我们看到,他们相关系数为0.4和0.5,这是一个作为参照的背景数据。下面我来给大家看看另外两个ID(保护他们隐私故匿名)的发帖时间相关性,注意这两个ID曾在西西河自己官宣互为马甲。
我们看到,相关性高达0.78。
从以上匿名数据,我们大概可以推测,我提及的这个发帖时间分布指纹,是有效的。接着,我开始验证公开承认互为马甲的燕人和翼德
我们看到,相关性确实高达0.87,再一次验证了我的方法有效。
接着,我把被他人明里暗里指证为他的马甲的两个ID:我还有机会吗,和既然青春留不住,分别和燕人相关,
我们看到,相关性都很低,和最初我举得两个随机ID之间关系类似。再看这两个ID之间,相关性也很低。
最后,我们来看看楼主菜根谭和给他抬轿子的大胖子的发帖相关性
相关系数高达0.75,和自己主动承认的马甲已经极其接近了。事实上,他们两个ID,以及给该主题帖宝推的若干ID,都和某个至今尚未在这个楼中出现的ID有强相关,在0.8~0.9之间。从他们发文历史看,虽然意料之外,却也情理之中。如前所述,我是顾及网友隐私的,就不在这里点他名了。
以上分析的数据,来源是程序自动读取的截止到本月初的若干ID的全部发文记录。我公布的仅个位数ID数据,实际考察的也不超过两位数。但每ID少则几百多则几千个帖子,不自动读取确实没那个时间。作为一个文科生,我现学的自动读取办法。从互联网礼仪上说,或许不算特别礼貌。但是或者我学艺不精,或者电脑性能太差,实际读取速度非常慢。基本每个页面耗时0.5秒左右,和正常浏览网页速度相比,对服务器压力应该不会特别大。
其实,比使用马甲更恶劣的,是用马甲互相宝推,送花。虽然现在规则只能看到若干天内的送花记录。但是西西河的宝推记录历史是可以看到的。菜根谭和大胖子,以及他们同伙ID,互相宝推有多频繁,老用户应该心里有数。通过相互宝推记录其实也可以得到一个ID的团簇,扯出萝卜带出泥。如果我去把这些数据也算一下摆出来,怕是难看得很。做人留一线,日后好相见,到此为止吧。
数据摆完了,最后,说几句或许多余的话。
1. 对燕人、我还有机会吗,和既然青春留不住三个网友,你们虽然参与了那个主题贴的讨论,但是是作为防守方被动参与的,我这里未经允许就读取并公开了你们的数据,希望你们原谅。不过如前所述,这已经是处理后的数据,已经在我能力范围内最大限度保护你们隐私。从某种意义上讲,我这个贴也算是给你们洗脱不白之冤。
2. 对于菜根谭,大胖子等ID,我没什么可说的,我对他们的雇主说几句。如果要搞一些正面宣传,占领舆论阵地,作为公民我是支持的。但是,请找一些稍微像样一点的人来做这个事情。如今是互联网时代,随便一个三流演员的公关团队都比他(们)强。我不知道你们这些宣传活动如何绩效考核,但是很显然,目前在西西河的效果是负面的。在人员使用上,这里面有没有腐败问题?希望你们深思并做出改进。我们纳税人的钱,不能这样随便糟践。即便经费有限,能力不足,哪怕转发新闻联播、人民日报内容呢,也比这样追着海外的爱国华人咬强。人家用中文发发美食、电影,难道不是在传播中华文化,你们这样死缠烂打不放过,会寒了沉默的大多数的心。
3. 对于广大网友,我想说,我发这个帖子,不是鼓励大家去抓马甲。恰恰相反,我本并不介意马甲。发这个贴纯粹是看不惯他们欺负人。数据分析中,我也无意发现很多网友在用马甲,颇有大跌眼镜的。但是我不会去公开他们。站长 @铁手 之前有句话我非常赞同,大意是我们应该关注发帖的内容,而不是发帖的ID。如果我们能从某些发言中学到一些东西,那么来西西河就是有益的。我希望这也包括以上提及的菜根谭、大胖子这些ID,某种意义上它们可能也是国有资产。完全可能今后换成积极向上的人使用,希望大家不要歧视这些ID。关注他们今后的发言内容而不是这些账号本身。
4. 对一些也在使用马甲的人,希望你们不要再贼喊捉贼。仅仅因为某网友善良公开了自己的马甲而穷追猛打,不厚道。我一个文科生,花一个晚上能学会的东西,对于人才济济的西西河网友根本不是事。特别是站长 @铁手 ,如果愿意,对一切都能洞若观火。他不过是性格纯良,不和你们一般见识罢了。希望大家把精力放到如何发些有趣有益的帖子上来。人家建立一个网站不容易,你们多想想怎么建设,而不是破坏这个来之不易的环境。你若嫉妒某网友发帖水平高,应该走正路提高自己的发帖水平,而不是搞歪门邪道下绊子。
本帖一共被 4 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
🙂【讨论】受某网友启发,关于马甲的简单分析和讨论
🙂只能说燕人河友等人的道德水准还有进一步可降低的空间 2 LittleBear 字484 2024-04-16 00:45:03
🙂你玩了个断章取义夹带私货的把戏 16 大胖子 字1319 2024-04-14 03:55:48
🙂两个错误不会累积为一个正确 2 既然青春留不住 字461 2024-04-15 05:05:50
🙂你的语言特点已经为你自己做了人物画像 8 大胖子 字469 2024-04-14 04:21:14
🙂对这句很有同感 5 普鲁托 字325 2024-04-14 02:09:22
🙂我猜测这个不是一件容易的事 2 懒厨 字446 2024-04-14 11:26:08
🙂所以,老铁的系统应该鼓励匿名发帖 4 普鲁托 字175 2024-04-15 00:13:43