西西河

vanzolo

注册:2009-04-07 14:34:04
正九品上:儒林郎|仁勇校尉
💧3115
🌟151
💓483

家园

所有帖 / 5 上页 下页 末页
2010-01-25 21:53:11分页 全看 树展
🙂手法倒是谈不上,只是实验中的一种策略而已 ↑0 ↓0
其实很多实验都是用这样的策略。比如检查肝功时的谷丙转氨酶测试就是这样。如果想知道肝脏的某些功能是不是出了问题,谷丙转氨酶测试可以帮我们得到一些信息;但是肝脏的另一些功能出了问题不一定能够通过谷丙转氨酶测试得到验证;同样谷丙转氨酶升高也不能确定到底是哪里出了问题。 对于复杂系统进 ...
2010-01-25 21:26:25分页 全看 树展
🙂就是黑盒测试,而且是专门针对语言处理方面的 ↑0 ↓0
从实验的方法应该很明显的看出来。可惜大家都把这个比较当成针对整个引擎的白盒测试啦[em12] 使用长搜索关键词就是为了减少排序过程中其他因素的干扰,突出语言处理部分,结果。。。 其实自然语言处理技术更关心的是短句,句子,段落这个级别,短语词汇这个级别更多的是作为语法、语义处理 ...
2010-01-22 21:44:11分页 全看 树展
🙂搜索准确性是一个受多个因素影响的综合结果 ↑0 ↓0
而语言技术只是其中一个影响因子。不可能从搜索结果得出对引擎使用的语言技术的准确评价,我们只能管中窥豹,略见一斑而已。使用长关键字搜索就是为了突出语言技术的在算法中的影响力。 ...
2010-01-22 21:13:04分页 全看 树展
🙂呵呵,帖子的标题就是Google与百度的语言处理技术比较 ↑0 ↓0
2010-01-22 19:10:42分页 全看 树展
🙂你说的没错 ↑0 ↓0
但是你说的比较搜索引擎的技术是从整体上来比较,而这个这里在讨论的主要是搜索引擎中用到的中文自然语言处理方面的技术。[URL=http://sighan.cs.uchicago.edu/]SIGHAN[/URL]是针对这方面的讨论组。SIGHAN组织一些专门针对汉语分词的测试评比来 ...
2010-01-22 09:18:08分页 全看 树展
🙂简单的关键词体现不出功力来 ↑0 ↓0
中文自然语言处理的能力需要比较复杂的环境来体现。[URL=http://www.googlechinablog.com/2006/04/blog-post_10.html]Google黑板报[/URL]对中文分词做了很好的说明,有兴趣可以看一看。 ...
2010-01-22 09:09:10分页 全看 树展
🙂使用引号是把文字顺序放在最高优先级 ↑3 ↓0
当文字顺序作为最高优先级的时候,词典的作用就基本被忽略啦,可以和以字为单位进行切割的情况。而以字为单位的情况可以参考[URL=http://www.ccthere.com/article/2676344]这里[/URL]。 在搜索引擎对网页中的一个句子进行处理的时候,都会产生不 ...
2010-01-21 22:05:29分页 全看 树展
🙂这里先不讨论技术问题以外的东西 ↑1 ↓0
这里只是讨论搜索引擎中自然语言处理方面的技术。搜素引擎包括很多技术,自然语言处理只是一方面。但是自然语言处理能对用户的搜索体验有直接的影响(搜到的结果靠不靠谱)。所以从普通用户的角度来看,谁的结果更靠谱谁就是好引擎。 这里所做的实验是在理想环境中,即排除了自然语言处理技术以外的 ...
2010-01-21 21:51:57分页 全看 树展
🙂对于人工介入需要说明一下 ↑2 ↓0
应该是对于搜索引擎判断不好的情况进行了手工切割,同时更新了词典。搜索引擎判断不好的情况既可能来自关键词,也可能在算法在处理网页时遇到。而后者应该占大多数。而词典的维护很大程度上是一种人工介入。 在中文自然语言处理中,词典非常重要,百度应该投入了很大力量(包括人力)维护词典。对于 ...
2010-01-21 20:55:24分页 全看 树展
🙂不敢当 ↑0 ↓0
只是看到大家因为Google退出中国炒得一塌糊涂,就想说点自己知道的、看到的,有什么不对的地方,还希望大家多指正
2010-01-21 01:17:48分页 全看 树展
🙂Google与百度的语言处理技术比较 ↑28 ↓0
这里只是比较两个搜索引擎对语言的处理能力,不涉及后台的其他技术。 Google是从以词语为单位的自然分词语言发展过来的,处理大多数外语都很有经验。 Baidu是从以字为单位的非自然分词语言发展过来的,处理中文这样的语言经验丰富。 Google很早就开始国际化,所以处理多语言 ...
2010-01-18 19:19:15分页 全看 树展
🙂心理阴暗一下 ↑0 ↓0
会不会是老牌IT企业(如微软)出主意让Google来当这个出头鸟。。。。 看看这些公司事后的表态就很值得玩味,完全一副事不关己的打酱油姿态,甚至是看Google出洋相的意思。 一旦Google不行啦,Google的技术和人员优势就是这些公司眼馋的肥肉啊 ...
2010-01-18 14:53:12分页 全看 树展
🙂Google遇到了网络公司盈利模式的瓶颈 ↑3 ↓0
太多的依赖广告收入,现在的Google应该叫AdGoogle。 感觉Google自己也在不断尝试在新的领域拓展盈利模式,比如出租计算(云计算),移动平台(Android),企业计算(Google Apps),但是总体感觉还是没有新的突破,至少目前为止是这样。 所以广告收入对于 ...
2010-01-18 10:00:34分页 全看 树展
🙂狗狗要名副其实啦 ↑0 ↓0
TG:赖着不走是小狗~~~
2010-01-18 09:57:49分页 全看 树展
🙂Google这一闹会不会给国内其他搜索引擎机会啊 ↑1 ↓0
淘宝,有道和搜狗一直都在磨剑,但是有Google和百度两个巨无霸压制着,很难有抬头的机会。如果这次Google一哭二闹三上吊,市场份额肯定受影响,百度肯定会扩大优势,但是一家独大肯定不会太久,而且比较现在中文搜索的技术已经不是太高深的啦,有输入法和词典的中文处理的底子,有大规模邮 ...
所有帖 / 5 上页 下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河