主题:【原创】百度为什么不收购七把叉 -- 铁手
共:💬33 🌺46
根据用户输入来学习断词,无非需要以下的工作:
1.写一个算法,在成千上万的输入中取一个样本出来。优点,用户已经替你断好词了。缺点,用户输入的规范性,全面性有待商榷。
2.雇一批人,修订拿出来样本,用户输入很可能错误很多。
传统的做法是这样的:
1.写算法,在中文网页中抓个样本回来。优点,样本的规范性,代表性更有保证。缺点,还需要人工断句。
2.雇一批人,给抓来的样本进行断句。
两者比较,第一步互有优缺,主要是第二步的工作量。我觉得一个人来判断另一个人断句是否正确,比起来他直接断句,反而更麻烦。直接断句,基本上可以不用大脑,反射完成,看另一个人断句,难免要想一下。也许在这个问题上,我有点想当然,但是起码我也觉得工作量不会太省多少。
- 相关回复 上下关系8
🙂听说 gg 也是人工调整的 1 凑热闹 字58 2007-05-03 22:24:36
😥不太相信阿,google都是机器人的干活 kavin 字0 2007-05-04 02:03:56
🙂当初的YAHOO也是手工建立目录的,现在应该不太有人用了 铁手 字351 2007-05-03 18:25:34
🙂呵呵,我是觉得这样的工作量比以前的做法并没有多少改进
🙂这样理解太牵强,gg的用意还是通过输入界面让更多人 1 凑热闹 字117 2007-05-02 19:11:28
🙂输入法算是GOOGLE的一个努力,是小技。 1 张家兄弟 字172 2007-05-02 16:20:07
😄我给百度出个countermeasurement idea: 6 请尽量 字1629 2007-05-01 14:09:32
🙂只要使用的人群达到一定数量,统计意义上有效。偏差应该不大 铁手 字82 2007-05-03 18:20:28