西西河

主题:Google与百度的语言处理技术比较 -- vanzolo

共:💬27 🌺40 新:
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 既然比较搜索引擎,就是比较搜索技术

SIGHAN不是讨论搜索技术的,而是讨论语言技术的。用SIGHAN关注的问题来比较搜索引擎之间的优劣,不是张飞打岳飞吗?要真的比较的话,也得是SigIR才说得上啊。

事实上,搜索引擎对自然语言技术有很多应用,但自然语言技术却不是搜索引擎的最核心问题。搜索引擎处理语言文字的技术,最主要的不是自然语言技术,而是统计和机器学习技术。你单独把这个关系不是特别大的方面拉出来比较,对真正的搜索引擎比较是没有意义的。

我也没有说要PageRank和自然语言技术相比,而是说你比较搜索引擎,就得比较PageRank方面的技术,而不应当把自然语言技术拿来作为主要方面进行比较。

另外,Google之所以这么成功,有很大的因素是因为当时基于纯自然语言技术的搜索引擎效果太差。从这点上说,把PageRank和自然语言技术相比,也有其合理处。

家园 呵呵,帖子的标题就是Google与百度的语言处理技术比较
家园 你用搜索来比较语言技术

还是用搜索的准确性来比较语言技术优劣,还是用搜索引擎不特意优化的长搜索,这样得出的结论可有任何参照意义?

家园 搜索准确性是一个受多个因素影响的综合结果

而语言技术只是其中一个影响因子。不可能从搜索结果得出对引擎使用的语言技术的准确评价,我们只能管中窥豹,略见一斑而已。使用长关键字搜索就是为了突出语言技术的在算法中的影响力。

家园 你这个“略见一斑”是一厢情愿

你要研究自然语言,就直接研究自然语言方面的东西。有很多技术手段可以研究,比如参考这个研究百度分词算法的帖子:

百度分词算法详解

别把不相关的东西扯进来。事实上,你自己也能看出来,你的实验根本没有发现什么规律性的东西。

话说当年(现在可能也是,好久没跟踪了)各大网站比较CPU性能,一个必测的项目是用SuperPI这个程序。咱当时也不能免俗,运行了几次,但几次下来就发现了巨大问题:这个程序所计算的时间值是包括IO时间在内的!于是,如果把这个程序放到很慢的盘,比如网络盘上,那么测出的性能就极低。显然,真要用这个测试反映CPU的性能就是一个笑话。一个如此不严谨的测试,在各大网站,包括国外的评测网站,竟然用得不亦乐乎。这真是无可奈何的事情。不过,在任何严谨的研究中,谁要是这么用,显然是不能被接受的。

西西河有那么多大牛发表各种高质量的帖子,我们总不能把西西河的水平降到电脑报这样的水平吧。否则各大牛情何以堪?

家园 怎么说呢,

放弃用关键字,而用整句来搜索的话,不得不说是一种舍近求远。

除非有接近完全匹配的文章,不然的话,是非常没有效率的。

搜索文章名的话,恐怕谷歌不会比百度更差,如果想把搜索引擎变成一种人工智能处理的话,恐怕至少现在,你不能有很好的答案的。

这一点河里也一样,很多文章的最下面有关键词列表,而如果你使用黏着语的话,恐怕搜不到结果的。

另外,用的例子属于比较偏的冷话题,即使搜索到,估计列为首页的可能不大,这一点,汉字输入也一样,联想词汇总是从常用词开始。而且百度的结果很多是同样内容的重复,而谷歌似乎在故意避免这个结果。

家园 LZ是考虑到AI,

可是,众所周知,AI还很不成熟。

因此得出结论,虽然看似轻率,不过这种手法在现实社会中却很常用。

另外,河里很多文章都用少数事例的单个结果来下结论,不知道这种做法是在学校这样学的,还只是偶然脑子一热。似乎并不科学,但是对人群的确有效果。也许这就是过于理性的人不适合当政治家和企业家吧。

家园 我认为楼主对例子2的分析不是特别准确

如果统计一下百度第一页的搜索结果,10个结果里有4个指向cchere,5个指向cctongbao。而Google则把ccthere的网页都group在一起,放在头两个搜索结果中。如果点击Show more results from www.ccthere.com,会发现还有5个ccthere的网页。如果Google也像百度那样罗列出所有相同网站的网页,那么前七个搜索结果都是靠谱的。而楼主说的

Google给的第二个结果已经很不靠谱啦
则是不准确的。

我觉得Google这样提供搜索结果更有效率。

家园 你这个做得是黑盒测试啊· 就从功能角度方面测。

用黑盒测试想很全面评价这两个引擎是有点难。很难覆盖到所有的路径。

要是知道这两种技术的ranking 和cluster的具体算法就会比较方便了。

我记得应该有这一方面的论文的,比较google和baidu的算法。

顺便说一句,google 的学术搜索引擎,http://scholar.google.com.sg/ 不错。这个找英文论文非常靠谱。百度都没有专门的学术文献搜索引擎。

家园 就是黑盒测试,而且是专门针对语言处理方面的

从实验的方法应该很明显的看出来。可惜大家都把这个比较当成针对整个引擎的白盒测试啦

使用长搜索关键词就是为了减少排序过程中其他因素的干扰,突出语言处理部分,结果。。。

其实自然语言处理技术更关心的是短句,句子,段落这个级别,短语词汇这个级别更多的是作为语法、语义处理的基石。在现在的搜索引擎中,自然娱乐处理技术能够施展的地方很少。这也跟自然语言处理技术本身不成熟有很大关系。唯一的例外就是中文分词,也就是前面那个实验的重点。

语言处理不会关心到网页之间的关系,所以搜索结果所反映处理的网站指向正确性是由搜索算法的其他部分决定的,也就是PageRank这样的技术。

家园 手法倒是谈不上,只是实验中的一种策略而已

其实很多实验都是用这样的策略。比如检查肝功时的谷丙转氨酶测试就是这样。如果想知道肝脏的某些功能是不是出了问题,谷丙转氨酶测试可以帮我们得到一些信息;但是肝脏的另一些功能出了问题不一定能够通过谷丙转氨酶测试得到验证;同样谷丙转氨酶升高也不能确定到底是哪里出了问题。

对于复杂系统进行功能性黑盒测试,只能通过某一类输入得到对应的输出来猜测所测试的功能。测试的结果不能算作正确的结论,但也能反映一定的问题。

家园 百度现在

百度现在号称站内搜索, 搜很多关键词, 百科3个, 贴吧3个, 然后广告3个.而且更牛的是, 不管你搜啥关键词, 百科都有份。

全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河