西西河

主题:【原创】【囧斋随笔】关于输入法 -- 范含

共:💬32 🌺47
全看分页树展 · 主题 跟帖
家园 【囧斋随笔】20071125,关于输入法(五)

千呼万唤始出来,谷歌拼音1.0.23.40发布了。理论上这还是“测试版”,不过了解20%规矩的朋友们应该明白,官方没有表态支持(也就是拿进80%时间里开发)的Google产品,永远都是测试版。

下面谈谈对于输入法各自特点的感想,主要是拼音加加、谷歌拼音、搜狗拼音、以及拿来对比的微软拼音2003,微软日文IME2003和ATOK2006。

先说拼音加加。有许多同事都在用,并且评价很高。

感觉这个输入法确实规规矩矩,有意义的设置项也比较多。就是词库似乎陈旧了一些,让被惯坏的咱稍微有点不适应。没有网络同步功能很遗憾,但是应该考虑到具体情况:加加的团队没有免费邮箱服务,是否有足够强劲的服务器还不一定;而目前大部分人还是在大部分时间只用一台电脑,尤其是笔记本用户。

最大的亮点是分组自定义特殊符号,比如圆圈数字,这对于中文用户吸引力很大。而在常用日语输入法(尤其是ATOK)的朋友看来就很正常了。【^o^】

再说搜狗拼音。

第一印象差不多已经扭转过来了,在使用的过程中,随着搜狗和谷歌的交替更新,对于选词准确率上面的感受也是交替改变——这才是竞争。在这一点上,平分秋色。

搜狗的特点确实不少,尤其是脚本式插入日期时间,变化数字等等。这对于中文用户吸引力很大。而在常用日语输入法(尤其是ATOK)的朋友看来就很正常了。【^o^】

细胞词库的使用,也算是一个亮点。但是看起来似乎把希望寄托于广大使用者身上,官方的词库都是股票名称和诗词名句之类,对于地名和专业词汇一点涉及都没有,而恰恰这些才是主要的扩展词库。

可能是和预算有关吧,对比之下,微软拼音附带的专业词库很多,在现有硬件条件下完全可以全部打开而不影响性能。遗憾的是,即便是微软拼音也仍然没有地名词库,许多场合下还是要一个个的选字。

分门别类的词库,这对于中文用户吸引力很大。而在常用日语输入法(尤其是ATOK)的朋友看来就很正常了。【^o^】

最后是谷歌拼音。

很遗憾,没啥独有的特点……差不多全部的功能都被搜狗拼音一一对应着实现了。这就是官方支持和业余开发的不同呀!

再看看日语输入法对应于这些的功能吧。

变换方面没有什么好对比的,毕竟日语在拉丁字母和正式的带汉字的词组之间还有一个假名层。只要没打错,哪怕不做变换也属于正常。所以这个只能在日语输入法之间对比:ATOK大胜微软IME——共识。装了日语输入法的朋友可以看看设置页,无论哪一种,对于变换的设定都详细得变态,以至于连日本人都懒得设置:相信开发商的默认设定,拿来直接用就好了。而ATOK还额外提供了方言变换的模式,这也是由于日语方言之间差别不大的缘故。咱一般都是开着“關西”的模式而不是一般,因为咱是从不会日语的状态过去,在大阪落地,在京都呆了大半年,后来哪怕去其他地方溜达,仍然觉得关西话顺耳。

词库方面,微软IME日语版(同行们可以去看MSDN,IME的API有专门的日语版,对应了独有的一些特性)就分成了一般、人名/地名、聊天专用三种输入状态,各自有不同的词库。这个很好理解,因为日语名称发音繁多复杂并且没有规律,在一般模式下要想打出正确的汉字几乎不可能。

而ATOK更是将词库做到了极致,三种状态使用的词库可以随便换。实际上ATOK的网站上推出了许多额外的“変換辞書”供用户购买或自由下载,即便是默认提供的那些,也足够了。这样一来,咱就可以在标准输入模式下加入几乎所有需要的词库(太多了不能全部添加),不用变换模式也可以随意打字了。当然,和“顔文字”相关的词库就算了,还是让它们呆在聊天模式下吧。

而特殊符号也是用词库方式实现的。微软拼音是内置,打出“maru”就会出现“○”等等。对于ATOK,则是专门的“記号辞書”,里面内容更是丰富多彩,基本上日语能说出来的符号名称,只要打出来就能变换出来。甚至包括希腊字母和音乐符号。

圆圈数字和标点符号是另外一回事,待会儿再说

下面谈谈共性,看看几个输入法的表现。

首先是英文状态,不约而同,三种输入法都是用“v”键引导。这个功能主要是为了针对使用美式键盘切换中英文不方便的问题。

其中,拼音加加可以允许出现空格,也就是说,一个v能引导一句英文,不至于在打字的时候,一个“I am a boy”都要额外打出四个v来。

遗憾,谷歌拼音的新版这里有个大Bug,在输入某些单词的时候,会导致宿主程序崩溃。哪怕是主页上用来做例子的那个“vele”也是如此。各位可以打开一个记事本在里面试验一下,千万不要在用Word正码字的时候实验,这个可是会随着输入法一起崩的。原因呢~~肯定是某个指针歪了呗……错误很容易定位,但是如果涉及到选字算法,估计不太好改。

其次是网络同步,对于使用多台计算机的用户确实方便了许多。

谷歌拼音当然绑定的是Gmail,搜狗拼音绑定了搜狗G邮箱,拼音加加没有。

相比谷歌拼音单一的合并同步方式,搜狗把同步分成了上传下载,这一点对于放弃由于误操作造成的一些不想保留的用户词汇和配置很有必要。谷歌拼音用户往往抱怨,明明本地已经把一些烂词删掉了,结果一同步又回来了。

但是搜狗也有它的问题,还是适用性。按照微软的建议,针对用户的程序独有数据应该保存在系统盘的“\Documents and Settings\【用户名】\Application Data”目录下面。这里的用户名可未必都是字母数字。

咱在工作用台式机(日文系统)上,使用一个字母拼写的用户名登录进行管理,这时候同步没啥问题。但是笔记本上,用户名可是日文汉字的真实姓名,比如“範含”,每次同步都失败。只能猜测搜狗的同步程序还不是Unicode版,或是其他更有趣的原因。

再次是纠错功能。

最明显的是“南方模糊音”的设置,每个输入法都提供了。对于这个咱没有发言权,因为汉语拼音足够标准以至于从来不用,但是不能否认这个功能对部分用户很有必要。提供了总比不提供要好,不用的话关闭就是了。

除了这种系统性的纠错之外,额外的那些配置有些不对劲。

所谓智能纠错可以指定匹配对,比如从“uen”到“un”,但是这样对我来说只能导致选字的时候工作量增加,关闭之。

还可以纠正错别字,比如从“guangqian”变换到“光纤”,这个功能是内置于词库?!反正找不到地方可以去掉。

微软拼音的词库是经过了国家汉字读音委员会审查的,基本上保证了使用者不会养成不良习惯。但是,没有经过审查的这些输入法,会不会让用户自我感觉良好的一直错下去呢?联想到多年前曾经有老师对于那些用同音字篡改成语的广告大加批判,一般人觉得无所谓,但是您的孩子要是因为听惯了广告而在中考或高考里面丢了分……怨谁去?!再说,这俩拼音输入法还有笔画输入功能,要不要对应俗字或错字写法?要不要对应倒插笔?

还是规规矩矩比较好,身正不怕影子斜。

然后是换肤功能,一句话,没必要。

可能是开发的习惯,对于不使用系统主题颜色,或者不提供一个默认的使用系统主题颜色皮肤的程序深恶痛绝。但是字体的设置还是必要的。

谷歌这一点做得很好,请保持下去。

最后,谈谈数字和标点符号。

由于这些新拼音不是整句输入,标点符号基本上就决定了汉字上屏的动作。所以,配置中文标点符号成了必要。谷歌拼音的标点没有配置的余地,都是内置;拼音加加可以手动配置;搜狗则分成了全角和半角两套。

这个环节上,搜狗胜出,但是还不够。在修改过的日文键盘布局的状态下,两个中括号键我怎么也配置不出在全角和半角下都成对的。并且配置界面上的键名都是“Shift+6”而不是“^”之类简明扼要,一看就是以为“世界上只有”或者“中国人只用”美式键盘的朋友们做的。相比之下,拼音加加的界面更友好,半角标点=全角标点的方式,一目了然。

问题是,中文当中,标点符号并不只有一套或两套。

作为对比,微软拼音稍微强一点:除了逗号等标点用来上屏之外,括号、引号都可以变换,和词组一样,能够选择几套标点之中的一种。

作为对比,日语输入法强太多了,所有标点都可以变换。比如说微软IME,一个左方括号足有14种选择:

「:[全]かぎカッコ(始)

【:すみつきカッコ(始)

『:二重かぎカッコ(始)

≪:[数学]より非常に小さい

……

常用的都有了。ATOK提供的更多,几乎每个标点下面都是好几页的选择。当然,词频会随着使用而变化,不会造成选择的麻烦。

如果觉得这个不算什么,那货币符号呢?混合使用美元、日元/人民币、英镑、欧元符号的场合想必不少,各位目前都是咋办的?

归根到底,微软的输入法是整句输入,分词变换,可以做到连同标点一起处理。而相比之下,作为玩搜索引擎的搜狗和谷歌,对于分词技术肯定是炉火纯青了吧?选择技术门槛比较低的词组输入法,未免有点偷懒的感觉。

顺便,词组输入算法基本上只需要概率匹配,没有专家系统推测句法,干起来效果明显且开发速度快,但是没有了提高的余地。微软拼音是买的哈工大算法,暂且不论。日语由于句尾有语法曲折,没有专家系统帮忙根本不行。ATOK就是从上个世纪七十年代开始专门研究至今,才保证了如今对微软输入法的较大领先优势。顺便,微软的日语输入法也是和某个日本大学合作的成果。没有技术含量,还能支持多久?

既然提到了词频,谈一下谷歌拼音这次升级的问题。

许多用户发现,新版(1.0.23.40)的选字顺序,不是随着输入频率而变化,而是随着正在输入的单字而变化,一时不习惯。建议谷歌拼音改回去的呼声很高。

确实,这个设定不太符合一般键盘输入法的惯例。但是有一天我发短信的时候忽然想到,手机上的拼音输入法难道不是这样的么?再联想到Google有推出GPhone和苹果的iPhone竞争的打算……也许开发者哪怕是在20%的时间里,也要照顾啥内部指示吧……


本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河