主题：Google与百度的语言处理技术比较 -- vanzolo

话说当年（现在可能也是，好久没跟踪了）各大网站比较CPU性能，一个必测的项目是用SuperPI这个程序。咱当时也不能免俗，运行了几次，但几次下来就发现了巨大问题：这个程序所计算的时间值是包括IO时间在内的！于是，如果把这个程序放到很慢的盘，比如网络盘上，那么测出的性能就极低。显然，真要用这个测试反映CPU的性能就是一个笑话。一个如此不严谨的测试，在各大网站，包括国外的评测网站，竟然用得不亦乐乎。这真是无可奈何的事情。不过，在任何严谨的研究中，谁要是这么用，显然是不能被接受的。

西西河有那么多大牛发表各种高质量的帖子，我们总不能把西西河的水平降到电脑报这样的水平吧。否则各大牛情何以堪？

复 Google与百度的语言处理技术比较

家园

怎么说呢，

放弃用关键字，而用整句来搜索的话，不得不说是一种舍近求远。

除非有接近完全匹配的文章，不然的话，是非常没有效率的。

搜索文章名的话，恐怕谷歌不会比百度更差，如果想把搜索引擎变成一种人工智能处理的话，恐怕至少现在，你不能有很好的答案的。

这一点河里也一样，很多文章的最下面有关键词列表，而如果你使用黏着语的话，恐怕搜不到结果的。

另外，用的例子属于比较偏的冷话题，即使搜索到，估计列为首页的可能不大，这一点，汉字输入也一样，联想词汇总是从常用词开始。而且百度的结果很多是同样内容的重复，而谷歌似乎在故意避免这个结果。

复不同的比较结果，楼主被命中

家园

LZ是考虑到AI,

可是，众所周知，AI还很不成熟。

因此得出结论，虽然看似轻率，不过这种手法在现实社会中却很常用。

另外，河里很多文章都用少数事例的单个结果来下结论，不知道这种做法是在学校这样学的，还只是偶然脑子一热。似乎并不科学，但是对人群的确有效果。也许这就是过于理性的人不适合当政治家和企业家吧。

复 Google与百度的语言处理技术比较

家园

我认为楼主对例子2的分析不是特别准确

如果统计一下百度第一页的搜索结果，10个结果里有4个指向cchere，5个指向cctongbao。而Google则把ccthere的网页都group在一起，放在头两个搜索结果中。如果点击Show more results from www.ccthere.com，会发现还有5个ccthere的网页。如果Google也像百度那样罗列出所有相同网站的网页，那么前七个搜索结果都是靠谱的。而楼主说的

Google给的第二个结果已经很不靠谱啦

则是不准确的。

我觉得Google这样提供搜索结果更有效率。

复 Google与百度的语言处理技术比较

家园

你这个做得是黑盒测试啊· 就从功能角度方面测。

用黑盒测试想很全面评价这两个引擎是有点难。很难覆盖到所有的路径。

要是知道这两种技术的ranking 和cluster的具体算法就会比较方便了。

我记得应该有这一方面的论文的,比较google和baidu的算法。

顺便说一句，google 的学术搜索引擎，http://scholar.google.com.sg/ 不错。这个找英文论文非常靠谱。百度都没有专门的学术文献搜索引擎。

复你这个做得是黑盒测试啊· 就从功能角度方面测。

家园