主题:自己的老帖子:chrome的一个小发现 -- 诺黑
共:💬8 🌺6
主要是里面有个CC-CEDICT的词表: http://src.chromium.org/viewvc/chrome/trunk/deps/third_party/icu38/source/data/brkitr/cc_cedict.txt
CC_CEDICT是一个开源英汉词典
其实没有ICU自己也能用词表做分词,可能就是麻烦点。
不过,分词才是搜索万里长征第一步。一般情况用现成的搜索引擎最省事,比如Lucene
- 相关回复 上下关系4
🙂还是Opera更省心,google有点阳春白雪 1 坎肩也来谈马甲 字0 2010-03-24 20:55:24
🙂分词是ICU的功劳 1 vanzolo 字123 2010-03-23 05:58:38
🙂多谢这个信息。不知道是哪些函数用来做分词的 铁手 字97 2010-03-26 00:34:11
🙂其实也不是ICU多牛