- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:【原创】关于西西河发帖和得花的一些统计与分析 -- Adol
楼主是在国外还是在国内?貌似国外的可能性大。
不过很快就回国了。
我只能小心翼翼地说:“通过在论坛参与发言的比例来看,关注的话题更类似”,仅此而已,论坛发言之外,我很庆幸我挖掘不出来什么结论,记得电影里有一种的flag,叫做
“你知道的太多了”
8 西西河的支流
上一节的思路是,首先考察id之间的相似度,然后根据两两之间的连线,进一步组成了有内在共同话题的小圈子,小圈子又通过“话题多栖”的大牛们,形成了完整的西西河。这一节换一个角度,直接把目标放在“西西河的话题”上。
数据还是那么多,虽然目标是“西西河的话题”,但途径还得是“西西河的人”。和上一节的思路一致的是,西西河的人,还是作为一个个参与主题的集合来研究;但区别是,不再假设任何概率分布,采用一种类似于度量的方式衡量河友之间的相似度。一般来说,Jaccard相似系数可以用来衡量两个集合A与B间的相似程度,是A与B交集的元素个数与并集的元素个数的比值:(摘自wiki)
放到我们的问题里,就是河友之间的相似程度是共同参与主题的个数与各自参与主题并集的比值。仍然是考虑到上一节所述的第三点和第四点的影响,我对这个相似度做了如下修正:
(1) 赋予每个元素,即主题一个权重来衡量其在计算相似度时的贡献,这个值是944名注册用户中,回复该主题人数r的倒数。
(2) 和上一节一样,在计算每个河友各自参与主题数量的时候,只计算“最后一次被944名用户之一回复”晚于“较晚下河的河友注册时间t=max(A注册,B注册)”的主题数量。
做出这种修正后,我仍然不能保证河友间的相似度或反之,距离,满足度量的要求(非负-有,对称-有,同一-大概是没有,但是不太可能发生两个河友回复完全相同主题的例子,三角不等式-不确定,估计是没有)。
通过上面的方法计算了河友之间的相似度之后,使用K-均值聚类,对积分排名前400名的河友进行聚类,步骤如下:
(1) 随机指定k个河友作为聚类的中心;
(2) 计算所有河友到这k名河友的相似度,并分别归类至与中心河友相似度最高的一类;
(3) 在每个类别之内,计算类内河友之间的相似度,并选取使类内其他河友与自己相似度之和(这个地方我在犹豫是不是应该用平方和,结果略有不同)最大的河友为新的中心;
(4) 如果新的中心和旧的中心完全一致,算法停止,否则回到(2)。
至于初始的类别个数,最小值便取“有人的地方就有左、中、右”的3,最大值便取西西河的8个大板块:“股海”“视野”“广场”“人文”“生活”“科经”“英雄”“辅助”,再把“视野”分为“左、中、右”的10。
对3-10个的每种类别,分别重复搜索100,1000,10000次(每次随机不同的河友作为初始类别中心),共搜索800,8000,80000次,找出聚类中心800,8000,80000组,找出中心河友5200,52000,520000人/次,收敛至聚类中心次数大于100,1000,10000的河友见下表:
结果完全一致,说明了这10名河友,不一定是起到核心的作用,而是能够比较心无旁骛地专注于自己关心的话题,同关心这类话题的其他河友有着良好的互动,从而作为类别的中心被筛选了出来。但是,这并不是说我们就有10个类别。因为K-均值聚类不能保证收敛到最优解,所以这10名河友可能是若干次优解的合成。
所以我统计了在10000次随机中,上面找到的任意两个类别中心同时出现的次数,可以发现有些中心会频繁地同时出现,代表了他们存在于一个解中,另外一些中心有互斥性,同时出现的几率较小,说明他们关注的话题较类似,也都与类别内的河友互动良好。丢掉上表中所有同时出现次数小于4000次的河友中更不具代表性的一方。我们得到了5名河友组成的类别中心:萨苏,葡萄,李禾平,燕庐敕,大秦猛士。以这5个中心作为初始中心进行聚类,发现直接收敛,我认为这5名河友代表的5个类别,可以作为西西河5条支流的最优解。在这个结果中,我们多少可以看到一些东西,但是也没那么明显:大致上,第3、4组似乎对政经版块关注度不高;第2、5组较高,其中第2组似乎更偏重经济;第1组介于两者之间。
这个聚类结果,之所以呈现比较混沌的样子,是因为K均值聚类,本身就十分依赖于类别中心的选择。而在这一节,因为数据都是二元的,且经过了“(2)注册时间的筛选”之后,每对河友之间共享的主题向量长度也不一样了,即使加上权重,我也没想出来如何使用欧氏距离来作为分类的依据,只是估算了每两个数据点之间的“距离”,其结果就是,我的类别中心,也不得不依赖于一个数据点,而不是真正的“类别中心”。
河友的关系是网状的,以某个可能比较接近类别中心的河友来代替真正的类别中心,可能存在一些问题。因为偶然的因素,部分河友会被误分类,如果类别中心的河友涉猎比较广泛,还会带来区分度不足的问题,在政治相关的分组中,这个问题更明显。
不过,涉猎广泛的河友,是聚类的阻碍,却是西西河不同支流的交汇点,有了他们,西西水系才是相通的。之所以政治相关分组中这个问题尤其明显,大概是因为,不管对其他什么感兴趣的人,也总是对政治有所关注吧,从这个角度说,没了政治,西西水系说不定也汇聚不成一条河呢,虽然大家汇聚之后就立刻为谁才是正统源头争论起来了。国际标准说:河源唯长、流量唯大、与主流方向一致。这个……要是前两条就矛盾了,这怎么办?
还有一种偏差,不仅是这节的方法,上一节的方法也同样存在,就是虽然在得花计算中,早期发帖多的河友吃亏了,但是在相似度计算中,早期发帖多的河友却占便宜了:如果两个河友都注册很早,早期帖子少,大家低头不见抬头见,一般都会共同参与不少主题,特别是早期发言多,后期渐渐发言变少的河友,更是如此。(当然,这样本身也会促使早期河友互相熟悉,高相似度倒也不能说是错的,只是在根据话题试图聚类的时候,会有偏差)说到底,这是河里主题随时间分布不均匀所导致的。
以上是后面结果的一些缺陷。
附聚类结果如下:
第1组:萨苏,忘情,黄河故人,njyd,抱朴仙人,双石,铁手,当生,史老柒,老拙,喜欢就捧捧场,errorking,老引北京,神仙驴,北宸,daharry,观望者,铸剑,楚庄王,冰排冻骨,马伯庸,MacArthur,鳕鱼邪恶,妖猫drake,蝶舞春园,春秋的老胡,呆鹅,dreamflyer,huang,巅峰背影,路人癸,桃源客,住在乡下,不爱吱声,天马行空,乡间小径,lanchong,北京雪君,锦候,东张西望,沙海,顾剑,猫元帅,邓侃,cpcliusi,r33300,gaogeli,配合配合,子奉不语,四月一日,尼伯龙根蜗藤,少壮军人,懒厨,秋原,米高扬,淡淡微风,一直在看,潜恒,毛锥子,大圆,暗香疏影月黄昏,陆伯楠,逍遥探花,空船,Highway,胡亦庄,夜月空山,aokrayd,q42474112,温相,苏迅,纪琮,农民家的狗,菜菜丛,龙骑兵,海天,chaos,pxpxpx,香山居士,马哥,过失速,奥森,无明火,龙驹坝,mezhan,笑吟,珊珊一何迟,小山,快刀浪子,老农民;
第2组:wxmang,井底望天,葡萄,陈经,万里风中虎,唵啊吽,本嘉明,陈郢客,子玉,老广,MRandson,yuanap,西瓜子,非闲人,曾自洲,厚积薄发,加东,wolfgan,迷途笨狼,PBS,孤舟一叶飘,Javacai,我爱莫扎特,早春二月,随性自在,Levelworm,wxmang的书童甲,密支那,应侯范雎,Mtknr20,aiyoho,SkyWalkerJ,潘涌,天堂,wild007,宁鸣,JACK船长,GWA,witten1,wukw,寒冷未必在冬天,mandman,郭嘉,脑袋,颜子,无所事事,hwd99,捷克,黄河清,一二三四,青衣江水,无聊中,sweeter,苹果乐园,none空空,autoeagle,大井故事,副将;
第3组:landlord,王外马甲,大懒虫1号,履虎尾,东湖珞珈,二宝,夏翁,李禾平,电子赵括,水风,盈盈,梦秋,苹果,myDday,逸云三洲,喜欢,老叶,容易,五度,holmers,大鹏翔宇,Samsung,西安笨老虎,山而王,冰冷雨天,非,宝贝小猪,桃李不言,爱莲,肥肥烤猪,绿野仙踪,holycow,梁东,1001n,老票,潮起潮落,所以我才飞好远,碎片与记录,柴禾儿妞,寞洑,大眼,神游,jufeng,踢细胞,霜迹板桥,闲看蚂蚁上树,擎箭天使,oiler2,巴山夜雨,润树,闲来有事,衲子,完颜陈和尚,苹果核的复仇,四处晃荡,黄有财,bluesknight,韦红雪,第二基地,海底鼠拨土,爱屋及乌,大厨,瘦形胖子;
第4组:晨枫,橡树村,李根,雪个,煮酒正熟,GraceUSA,老马丁,老光,思炎,燕庐敕,玉垒关,马鹿,虽远必诛,月色溶溶,范适安,游识猷,dahuang,瓦斯,大地窝铺,老老狐狸,coo,嘉英,九霄环佩,牛铃,穿越,阿辉1,物格修齐,dfindy,采薇,定远麾下,爱菊轩,飞天鸭,山有木兮,禅人,草纹,要你命3k,天地一沙鸥,老驴,atene,燕人,潜了又潜,七月群山,一条溺水的鱼,兰凯,王二狗,新长城,大西洋14,不感冒,cococal,zlusc,高子山,路边,柳叶刀,希宝,马头磬,一无所之,红男爵,不打不相识,俺老孫,山远空寒,车雨田,飞马萧,贪玩的风筝,廖石,王树,奔波儿,长少年,kmy1810,淮夷,静然如此,公鲨,nightcat,喜欢喝冰茶,jet,荷子,Che,年青是福,逐水而行,请我吃饭,落九天,redbud,北溟有鱼,千岭,树袋熊毛毛,风的笑容,苏鲁锭长枪,北京阿新;
第5组:南方有嘉木,史文恭,达雅,黑岛人,Emyn,Alarm,雪里蕻,szbd,ifuleu,种植园土,洗心,故园湾里,江城孤舟,泉畔人家,马前卒,赫然,发了胖的罗密欧,苍野,赫克托尔,左手拈花,江南水,大秦猛士,青色水,渡泸,森林鹿,科大胡不归,任爱杰,frnkl,秋末冬初,fakeone,罗化生,桃子甜,渔樵山人,whatever,河蚌,回旋镖,AleaJactaEst,冰雨,同人于野,猪头笨笨,南渝霜华,虎头,夹报纸的怪叔叔,镭射,南疆,wage,蚂蚁不爱搬家,驿路梨花,无事忙,不远攸高,littles,隔路山贼,代码ABC,方解石,周师傅,东方红卫士,常识主义者,雷声,兰州人,桥上,花大熊,iwgl,卷心菜,fighterbruno,南京老萝卜,契毖何力,leqian,须弥一芥,东方射日,简裕,李寒秋,特里托格内亚,什刹海良民,朱测,纹石,温雅颂,天煞穆珏,胡一刀,非真,尖石,四处张望,友来有趣,流川,bigwolf,上古神兵,方恨少,芝牛,forger,小乌龙,明日枯荷包,我们的田野,米宝,yhz,大脚丫,laska,王小棉她妈,企鹅,花差花差农民,南寒,葫芦牛仁,乌贼,断臂残刀疲败兵。
9 小结
写得太长了,最初没想到能写这么长。最后小结一下本文通过数据观察到的一些结论:
(1) 西西河的4个时期;西河历1-18月,幼年期;西河历19-58月,成长期;314事件以后,政治对西西河影响明显加大;西河历87月至今,尚待观察;
(2) 西西河受墙的影响很大,特别是314事件以后国内用户增多,河内所关注的热点的主导权,逐渐从海外河友转移至国内河友;
(3) 西西河对用户的吸引力没有特别的趋势,314事件提高了西西河的影响力,但是也引入了争吵的源头。尽管从数据上来说,最近一年的用户趋势有失真的可能性,但是结合我们的经验,特别是第8节中关于用户组的分析,我认为不容乐观——一个人的淡出可以弥补,但是一个组的淡出会减少话题的丰富程度,使政治化进程加剧,去政治化进程更艰难;
(4) 西西河的鲜花在衡量文章受欢迎程度的功能上是贬值的,西河历87月以前,主要受到注册用户人数增加的影响,含金量和时间成反比,通宝改革以后,主要受到政策影响,用户送花意愿明显提高,目前的鲜花只相当于开河时的1/8不到;
(5) 西西河是有主流价值观的,归结起来似乎就是——“讲学习,讲政治,讲正气”:所谓“讲学习”,就是欢迎知识,在理性主导的版面中,特别注重实事求是;所谓“讲政治”,就是西西河尽管有各种各样的观点,但还是有一些共同的底线的,碰了这个底线,后果很严重;所谓“讲正气”,就是西西河是讲道德的,传统道德是受欢迎的,在感性主导的版面中,要注重道德上的正义;
(6) 西西河是一个小社会,河友之间有远近亲疏,有共同爱好,也有共同话题,通过一些统计和学习的方法,能够在一定程度上描述这种现象,可能没有达到实用的标准,限于水平,本文也没法给出理论上的证明,只能通过直观感受给出一些解释,但是希望这些探索能够提供一些思路,对西西河的发展有益。
全文完
本帖一共被 3 帖 引用 (帖内工具实现)
如果被人看上了,可以一用。尽量帮能推进中国方向的一方做事吧。
另,这个整合整合可以做一个软件了。
其实组里的有些ID和我是对头的。
说的是你和那些ID关心的内容是很相似的——
话说,兴趣完全不一致还真的很难做对头……
因为我只收集了非内容的数据,帖子具体内容是什么我是不知道的,所以也无从判断id之间的具体关系。
这里用到的一些方法都是很普通很简单的东西,只不过之前没什么人用在论坛数据的分析上。其他论坛,大概也没有西西河这样的形式——有花、有所有帖和主题帖的回复关系等数据,有这样的数据,可能也不是公开的,或者很难收集。
所以本文中的一些方法,其实最适合论坛的管理员,在西西河就是老铁,来使用。他们不仅有更多更全的数据,也可以直接用于数据库的分析。并且,他们长期不断地监视着全论坛的情况,了解论坛的历史,拥有论坛的日志,可以对数据的分析结果做出更准确更全面的解释,我们任何一个人在论坛的时间、对论坛的了解都不可能超过管理员。所以如果是软件的开发,肯定是要依托论坛本身的程序,这个工作一定是由管理员或者论坛引擎的开发商完成的。
实际上我在2~4节所分析的东西,老铁应该是心里有数的,5~8节的部分,他可能不一定有时间、也不一定有足够的紧迫性去做,但原理是很容易的。就像在第7节说到的,对老铁来说,他可以用很多很多种手段来分析用户之间的相似或者关系,而不仅仅是我文中提到的共同参与话题的特征。
从另一角度讲,其实这对用户的隐私保护也提出了挑战,论坛的帖子总是要公开发布时间和所回复主题的,一贴两贴没关系,长期大量的数据,很容易看出某个用户的发帖习惯、擅长的话题,普通的用户限于能力当然不可能一个个去查,但是google和百度这样的搜索引擎所掌握的用户隐私,是难以想象的。不要说google和百度,就是论坛的管理员,如果辅以ip等数据和少量帖子内容,也可以知道很多。
甚至连我这篇文章里面的许多方法可能都不用,之前我还看到了几篇语言学和自然语言处理方面结合的论文,讲的是通过语言习惯来识别作者(authorship identification)。我猜测大概相当于我们读一篇文章感受到的写作风格,比如说老萨讲故事的口吻,忙总简洁利落的口吻,陈郢客MM的民国口吻,葡萄的长句和复杂从句,马前卒的超快节奏,等等等等。可能用到的特征,比方说逗号和句号的比例,段落的长度,句子的平均长度,特定的字、词出现的频率,语气助词、转折、递进等连词的频率和用法……,可以用来描述一个人写作风格的特征是很多的。
所以,互联网的匿名性,对我们普通人来说,真的没有那么好。像西西河这样,可以放心地呆下去,长期发言的论坛,恐怕也不多。
总之,大量数据的威力还是蛮强大的,不过,就像之前说的,我不想知道太多。我应该不会继续研究这些数据了,而且我也不会散布这些数据。
分析这些数据,大概用了一个月左右的时间吧,当然是业余时间,可能渐渐也不会有这么大块的空闲时间了。应该说,我还是挺认真地做了这些分析,写了这篇帖子,拿不准的地方、可能错误的地方,也有所标示。最后,还是请有发现其他问题的河友纠正我的错误或不足之处。
本帖一共被 2 帖 引用 (帖内工具实现)
我和鱼雷管一个类,都是雷死人不眨眼的。
兴趣使然啊,我以为是毕业设计呢。呵呵
参数变化,作者,声望:4;铢钱:20。你,乐善:4;铢钱:-32。本帖花:4