西西河

主题:【原创】Facebook的一小步(上) -- forsake

共:💬57 🌺187
分页树展主题 · 全看首页 上页
/ 4
下页 末页
        • 家园 我估计google的爬虫已经具有了类似浏览器对HTML和

          JAVASCRIPT的解析功能,所以动态页面还是静态页面,google都应该能抓的到。

        • 家园 看不见就是不存在?
          • 家园 能不能给个答案

            我可是真心请教... 多谢...

            • 家园 【原创】如果是偶尔看看某个网站的动态HTML,可以

              用Chrome右键的"Inspect element"或者Firefox "Dom Inspector"(一个Addon).对西西河这样的网站使用这些工具时有个小技巧,不要尝试直接获取整个网页或者BODY的HTML。在"Inspect element"中沿着DOM TREE往下走,然后右键选择“Copy as HTML"或者“Copy XML"就可以了。

              如果想要通过程序自动获取有以下路径:

              1.熟悉JAVA SCRIPT的可以考虑写Chrome的Extension.

              2.熟悉C++的可以考虑调用IE的WEB控件,如果对IE和ActiveX COM熟悉的话两天就够了。缺点是这个东西不能做为服务在后台运行。

              3.直接修改Chromium,熟悉的3--5天.这个方案的好处是可以做为后台服务。

            • 家园 【原创】可不可以遍历整个DOM?

              Injection 虽然不会改变文档的源代码,但是插入的网页元素必定会在整个DOM上面有所体现(要不怎么能在网页上被看到和交互呢?)

              所以俺猜测用客户端遍历一个网页的DOM然后把里面的所有元素输出成一个新的网页就好了(还没试过,不过理论上应该可行),对于自己有浏览器的Google,以及可以做浏览器插件的我们,应该都不是很困难的事情。

      • 家园 辩护一下哈

        1.

        FC搞的这个东西一点也不新鲜
        Facebook使用的技术确实不新鲜。老实说,这个评论功能属于Facebook开发平台的一部分,背后的技术已经使用好几年了。不过本文的重点并不在于技术,而在于应用——更关键的是,谁来推动这个应用,意义是大不一样的。比如说,我也可以开发一个论坛插件,让其他网站使用——但谁会用呢?既不能简化注册流程,也不能使用实名id,更不能吸引更多访问量。自然也就无法流行,对google也不成威胁。

        2.

        难吗?不难,起码对GOOGLE一点都不难
        确实,google想搜还是搜的到。这个在技术上总是可以想办法实现的,我应该修改。这里要谢谢太守指正。但问题是:google敢搜吗?举个例子,在如下链接:

        http://techcrunch.com/2011/03/01/facebook-rolls-out-overhauled-comments-system-try-them-now-on-techcrunch/

        里面的正文,google可以搜,但下面的facebook评论,就搜不到了。为什么?因为实际上评论是位于一个iframe里(正文里没有写,主要是不想引入太多专业词汇)。其中的网页,来源于facebook.com。Google如果想把评论加入索引,必须向facebook的服务器发出请求——而FB的服务器是有隐私设置的,除非用户声明自己的信息完全可见,否则Google是拿不到这个数据的。如果强行读取,就是违法。用户和facebook都可以起诉。详情请参阅FB的terms。

        3.

        google采集的绝大部分数据都没有经过网站主人的“允许”
        Google采集数据其实还是要经过允许的。这个权限设置就在web目录下的robot.txt文件里。当然,站长们为了增加曝光度,往往是欢迎Google随便逛的。
        接纳FC的同时一定要拒绝google吗
        网站当然可以同时接纳FB和Google,但问题在于,Google将只能搜索网页正文,而不能搜索评论(请参阅我上文中的例子)。站在站长们的角度,尤其是那些本来没有评论功能的网站,多了FB评论,对其Google可见度并无影响(假如Google不报复的话),好处则是可以增加其在Facebook上的影响力。

        至于中文网站,当然如你所讲,是另一回事。但同样的,国内的社交网站,也可以搞出一套类似的系统来,比如腾讯,比如新浪微博,甚至开心网之类。无论如何,新增的评论数据仍然会是google不可见的,还是一个打击,当然,同病相怜的还有百度

        • 家园 百度可能没事,呵呵

          百度的客户其实都不是需要分析评论自己能做判断的客户

          百度的客户是给他一个选择,他才有选择的客户

          没有太多独立判断能力,所以百度弄一个框计算

        • 家园 的确不是一个单纯的技术问题

          Facebook和微软互通用户数据,拒绝google,google肯定很郁闷。

          虽然facebook貌似发展很快,但是我还是觉得没啥用处,真有人成天泡那个?

    • 家园 能不能给个Facebook关于该功能的链接

      找了半天没找到... 谢谢

    • 家园 确实是好东西

      效果还有待检验,并不是所有用户都想实名评论,所以最后有多大流量还比较难说。不过,对facebook只是利大利小的问题。

      还有,楼主觉得twitter会不会也这么来一下?技术上应该不是什么难题,而且貌似短评论更和twitter的胃口。

分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河