西西河

主题:【原创】百度和Google,谁更强大,为什么? -- 邓侃

共:💬168 🌺346 🌵1
全看树展主题 · 分页首页 上页
/ 12
下页 末页
家园 【原创】百度和Google,谁更强大,为什么?

判断一个搜索引擎的质量的标准是什么?是准确性(Precision),还是完备性(Recall)?都对,但是都不完整。其实,搜索引擎作为一个产品,它的质量好坏归根结底还是看顾客对它的接受程度,也就是市场占有率,而市场占有率是通过流量(Traffic)来评估的。

有人问,假如我们提高了Precision和Recall,是不是就可以赢得更多流量呢?下面的表格是2004年5个搜索引擎的性能对比,Google不比 Alta Vista好多少,比HotBot稍差,比Scirus差得就更远了。但是同期Google在全球搜索引擎的市场占有率是45%以上,而表中其它搜索引擎的市场占有率没有哪一家超过5%。所以,结论是,Precision和Recall,与搜索引擎的市场占有率没有必然联系。

Table 1. 2004年5个搜索引擎的Precision和Recall比较

(Courtesy of Shafi & Rather )

Alta Vista, Google, HotBot, Scirus, Bioweb

Precision 0.27 0.29 0.28 0.57 0.14

Recall 0.18 0.20 0.29 0.32 0.05

有人争辩说,Precision和Recall只关心被搜索引擎找到的结果中,正确的结果占的百分比,以及被找到的正确结果,占所有正确的结果的百分比,这两个性能指标并不能准确反映用户的满意程度。其实,所谓正确的结果中,也有更正确和不那么正确之分,所以更准确地反映用户满意程度的指标是结果的排序。Google凭借PageRank技术,给找到的结果打分并排序。而PageRank的打分,看来比较符合用户的期望,所以Google成功了。

我的偏见是,把扩大搜索引擎的流量,完全寄希望于提高引擎本身的技术性能,这个思路是危险的。比较百度和Google,在技术性能方面,没有强有力的证据表明百度比Google强多少。假设技术性能决定流量,那么百度最多只能和Google平分市场份额。但是事实上,在中国搜索引擎市场,百度占了市场份额的70%以上,远远把Google抛在后面。因此百度的领先,反证了技术决定论的不成立。

另外一个原因是,当今世界技术进步的速度很快,即便是PageRank这样的技术,很快就被很多公司效仿。极端一点讲,搜索引擎方面似乎已经不存在什么技术是哪家公司的独步秘笈。搜索引擎技术,已经成为大路货(commodity),你能做,我也能做。

百度的成功,我看主要因素有两条。一是闭循环系统,二是人力因素。

在说明闭循环系统之前,先看看什么是开循环。Google基本是一个开循环,用户通过Google查找信息,Google返回若干结果,每个结果是一个指向其它网站的链接。用户点击链接,就离开Google,访问其它网站了。但是百度有意成为一个闭循环系统,用户在百度查找信息,百度多半会返回百度知道,百度百科,百度贴吧等等百度其它产品的内容。而这些其它百度的产品,多半会附带搜索服务,而所用的搜索引擎,无一例外统统用的是百度自己的搜索引擎。换句话说,百度的搜索引擎把用户流量带给百度的其它产品,而其它产品又把流量反过来输送回百度搜索引擎。当然,如果百度知道等等其它产品的质量很差,用户也不一定会听从百度引擎的疏导,但是目前看起来百度知道,百度百科,百度贴吧等等产品相当受用户欢迎。即使在Google查找信息,也经常被引导到百度知道,百度百科这些产品上来。

百度第二个成功的诀窍是人力因素。提到人力因素,或许会有人想到Social search engine这样的技术,它是依靠用户打分以及跟踪用户使用搜索引擎的行为,来提高搜索引擎返回结果的质量。百度也依靠人力,但是目的不是提高搜索质量,而是从事两种事情。一,编辑整理内容。二,生成新内容。下面这张表,分析了百度各个产品吸引的用户流量。除了搜索引擎以外,其它高流量产品都有人力参与的成份。譬如图片,mp3,知道,音乐掌门人,视频,新闻和百科,都有编辑整理的痕迹。而图片,贴吧,知道,音乐掌门人,视频,百科等等,内容本身也是由百度用户自己生成的。用专业术语讲,就是“用户生成的内容(User Generated Content)”。百度要维持一支相当规模的内容编辑队伍,这一点恐怕是其它搜索引擎公司所不具备的。百度花了大力气,像Wikipedia那样发动群众生成内容,这一点也是其它搜索引擎公司所不具备的。

Table 2. Baidu traffic breakdown

(Courtesy of Alexa.com)

搜索, 图片, 贴吧, mp3, 知道, Hi, 掌门人, 视频, 新闻, 百科

流量 49% 12% 12% 6% 6% 3% 3% 2% 1% 1%

对比Google的图片和百度的图片。Google的界面仅仅是一个简单的搜索输入框,而百度不仅有输入框,而且还有一些目录,包括爆笑趣图,精品推荐,美女明星,卡通动漫,精美壁纸,电影电视,风景名胜。每个目录下面是由人力收集和编辑的图片。做法不复杂,但是却占了百度流量的12%,可见深受用户欢迎。对比一下Google.cn,它的图片只占总流量的6%。可见有没有编辑,效果大不一样。

Table 3. Google.cn traffic breakdown

(Courtesy of Alexa.com )

搜索 图片 新闻 视频 地图

流量 91% 6% 1% 1% 1%

百度的音乐掌门人产品更有意思,做法是由用户自愿做掌门人,编辑音乐专集。其实编辑的工作也很简单,不过是把各处收集来的音乐放在一起,加上一些评论和图片。但是就这么个简单的产品,却很受用户欢迎,不仅反应在音乐掌门人的流量占到3%,而且从各个专集的反馈来看,用户的反应也是很热烈的。

综合这两条看,百度的成功,功夫在局外。有人说,如此说来,百度胜之不武么。我的偏见是,百度的做法,不仅可以容忍,而且要发扬光大,最好围绕搜索引擎,形成一个信息生产和消费的循环系统,信息的生产满足了消费者的部分需求,而消费者的需求不会就此停滞,更进一步的需求增长反过来刺激更大规模的生产。

譬如是否可以把音乐掌门人的做法,扩张到图片领域,发动用户去编辑画报。内容可以是图片新闻,或者连环画等等。更进一步,有没有可能让医学院的学生们利用课余时间,开设网上健康咨询。让车行的师傅,开设网上车辆诊断。

要发展这些业务,有很多问题需要解决,一,如何让这些掌门人有实际的商业回报,二,如何建立可以追踪网上行为责任的法律体系,三,如何把个体的掌门人组织起来,形成规模效应,为更多用户服务。

首先要让每个用户设立个人账号,这就是以博客为核心的个人空间。为了促进每个网民更多参与,更多贡献,需要创造一个大生产大协作的群体,而社交网的蓬勃发展给了我们非常好的提示。仔细研究一下Facebook和MySpace,它们最热门的功能无非是照片上传和组建社区。有人问,Flickr和Yahoo group不是已经有类似的功能了吗,如何解释Facebook和MySpace比Flickr和Yahoo group更成功?原因不仅是把这些功能整合起来,为用户提供更简便的操作环境。而且个人--小群体--大社区这样的社交网络,迎合了个人对于加入某个组织的渴望。

其次,既提供给每个网络工作者宽松的工作氛围,又保障整个信息生产体系严密。在以后的章节中,我将把博客和社交网,与OO(Object-oriented)的编程范式做类比,但愿能给大家一点启发,如何去营造这样的既宽松有严密的生产体系,完成比Wikipedia更复杂的工程。

第三,接下去我将讨论eTrade和PayPal那样的网络交易系统,不仅让掌门人有商业回报,而且必要时可以追踪法律责任。

在这个网络信息大生产大协作的体系中,搜索引擎将扮演什么角色?首先是收益者,有了更多更好的信息,带给搜索引擎的将是更多的流量。同时,一个激进的观点是,搜索引擎不仅会成为沟通生产者和消费者的媒体,而且还可能成为协调投资行为的股票市场。当然这个观点需要实践的检验。

关键词(Tags): #互联网#搜索引擎#Google#百度元宝推荐:晨枫,老马丁,

本帖一共被 3 帖 引用 (帖内工具实现)
家园 写的非常好,baidu的思路就是让你转来转去最好还是在它的地盘里
家园 笑,百度会去花时间搞那种艰苦的技术活?

别跟人有独立技术支持的wiki和google比,没有中国特色的市场保护和网络屏蔽丫的什么都不是。

家园 好帖

开阔思路,送花订阅。

家园 您这话说的太绝对了,baidu的擦边球打的挺好

比如说搜索mp3,百度比google要快捷很多

家园 怎么说呢 中国人大都用摆渡 老外一大半用google

另外一小半用的是YAHOO 我还是用惯了摆渡了 一开网页就不自觉地输入了摆渡。。。。

家园 这不正是中国特色吗

现在海外的IP已经下不了mp3了

家园 说的没错

国外的wiki的内容都给出原始链接,国内很不重视这一点,baidu的很多链接和内容根本没经过授权而且被baidu用于商业牟利,一旦严格打起官司,baidu要关掉一大半链接。另外一点就是baidu的搜索目标良莠不齐,很多链接都是木马和病毒丛生,用baidu链接这些网站相当不放心,此外国内的网站相互之间转抄现象严重,baidu在给出链接时没有过滤掉这些重复的无用链接,用google和yahoo进行外文搜索这种问题很少。

家园 技术?人肉!
家园 百度人参与比较多

和中国市场我感觉也有关系,很多百度底层员工工资都低得可怜,他们其实就是流水线上的工人一样。google中国据说是越做越烂了,传消息说管理各方面都不甚好,说跑到微软一批。

家园 算是各有特色吧

原本一直用google的,可后来google在国内被封的厉害,不得已改用了baidu,现在算是各有特色吧

家园 被百度的链接毒过一次。。俺基本只有古狗了。。。
家园 baidu的缺点

个人感觉baidu的最大缺点是对英文内容相关的搜索,如果这个解决不了,那顶多也只能在中国市场称霸,不可能成为世界级品牌

家园 现在还封么?

我比较土,先知道的百度,然后才是google。觉得百度对中文搜索的效果很好,而且比较依赖百度知道还有百科对一些专有名词的解释和一些历史人物事件的介绍。如果在google上搜名词,大部分会先给出wiki之类的网站,久而久之站名都记住了,就不再通过google。。。

家园 为啥我用baidu

很简单,因为有baidu帖吧。比如我今天在cctv看了赵晓岚老师讲李后主,第一反应就是去baidu赵晓岚吧找更多信息。

全看树展主题 · 分页首页 上页
/ 12
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河