西西河

主题:Google与百度的语言处理技术比较 -- vanzolo

共:💬27 🌺40
全看分页树展 · 主题 跟帖
家园 你说的没错

但是你说的比较搜索引擎的技术是从整体上来比较,而这个这里在讨论的主要是搜索引擎中用到的中文自然语言处理方面的技术。SIGHAN是针对这方面的讨论组。SIGHAN组织一些专门针对汉语分词的测试评比来比较各种相关的研究。

而PageRank的核心思想是跟自然语言处理没有关系的。自然语言处理针对的是单个内容(网页),是局部的;而PageRank针对的是网页直接的结构关系,是面向全局的。两者考量的级别是不同的。在实现中,自然语言处理的结果往往是PageRank算法中对网页打分的一个因子。所以拿PageRank和自然语言处理来比较有点关公战秦琼啦

其实Google是希望用户使用更长更多的关键词的,因为他们认为自己只有在更复杂的关键词上才能体现出比别人强的技术优势来。李开复曾经说过这么一个故事:Google为了让用户输入更长更多的关键词,在内部发动群众运动集思广益,最后是一个工程师想到了一个非常简单实用的主意:把首页中的搜索框拉长

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河