西西河

主题:Google与百度的语言处理技术比较 -- vanzolo

共:💬27 🌺40 新:
全看分页树展 · 主题
家园 Google与百度的语言处理技术比较

这里只是比较两个搜索引擎对语言的处理能力,不涉及后台的其他技术。

Google是从以词语为单位的自然分词语言发展过来的,处理大多数外语都很有经验。

Baidu是从以字为单位的非自然分词语言发展过来的,处理中文这样的语言经验丰富。

Google很早就开始国际化,所以处理多语言混合的内容要比Baidu成熟许多。Baidu现在还是主要以中文或者类似的东方语言(如日语)为主要方向,对西方语言和多语言混合处理起来笨拙很多。

中文这样需要分词的语言处理起来和西方语言有很大不同,如果是中西混合的内容,复杂程度又要增加很多。

两个搜索引擎对不同语言支持程度的不同也使不同用户有了不同的印象:IT工作者很多时候都是在使用英文词汇,甚至有时候很难找到对应的中文词汇来表达,所以这些人会感觉Google好很多;而对于主要使用中文搜索的用户,当搜索关键词比较复杂(比如长句)的时候,百度的优势就会显示出来了。

例子1:搜索关键词:Concurrency with Python, Twisted, and Flex (我找的是JavaEye的帖子这里是英文原文)

Google的结果

Baidu的结果

Google直接就找的了英文原文这对于专业人员很重要

第一页的结果基本上都靠谱或者沾边

Baidu也不错,把英文原文放在了第二位。但是从结果上看,不如Google的好。

这一局Google小胜

例子2:搜索关键词:是否可以考虑放弃浏览器另起炉灶 (河里的帖子

Google的结果

百度的结果

这个例子搜索的关键词是一个中文长句。

Google给的第二个结果已经很不靠谱啦:

农村合作金融监管需要“另起炉灶”_特别关注_中国金融界网

第一页10个结果有6个不靠谱

Baidu第一页只有最后一个不沾边:

泡泡通wap模拟浏览器 -- 小沈阳另起炉灶,赵本山带新人-泡泡门户 ...

Baidu搬回一局

例子3:搜索关键词:使用 Optim Data Privacy 解决方案在开放平台上定制数据转换 (IBM developerWorks中国的文章

Google的结果

百度的结果

Google准确命中目标

但是。。。只限于前两个结果(包括这两个结果所属网站的其他结果),第一页后面的结果就有点不知所云啦

Baidu没有找到靶心

但是。。。第一页的所有结果都跟搜索关键词有或多或少的关系

怎么比呢。。。算是平手吧

在这样三个不同类型的测试中两个搜索引擎基本上部分高下。但是这是在三种类型关键词出现概率相同的条件下。如果用户日常搜索的关键词偏向于某一类的话,用户的到的体验就完全不一样啦。

所以出发点不同,导致结果不同。每个人都可能对搜索结果有自己直观的感受,每个人的感受都可能不同,单纯从自己的角度评论搜索引擎的语言处理技术水平不能说明什么问题。


本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河