西西河

主题:【原创】為什麼漢字簡化是倒退? -- 樊逖

共:💬374 🌺2110 🌵68
全看分页树展 · 主题 跟帖
家园 需要保护的,必定是即将灭绝的

为什么没有人大声疾呼保护简体字?

因为繁体字即将灭绝,所以才有这么多的魑魅魍魉在叫嚣。

既然还没有人深入说计算机方面的问题,咱在这里就简单说一下。

1、繁体字需要的字体文件大小比简体字大2-3倍(笔画和字数两方面的原因),这个可以直接折算成存储空间,而且是常驻内存的空间。CPU渲染这些字体的时间,也相应增加,虽然没有2-3倍这么多。在PC上也许问题不大,但在手机上、设备上,就需要设备的技术指标高一个级别,相应的成本高一个级别。除了硬件的一次成本外,内存、CPU的占用,还直接导致能耗增加,缩短手机待机时间。另外,创作字体的成本,相应地也是2-3倍于简体字。

2、繁体字的笔画复杂,需要更多的点阵才能阅读。一般简体字16x16即可无障碍阅读,但繁体字基本上需要24x24。因此,支持繁体字的显示设备需要高一个级别的技术指标才能达到简体字同等效果,而且一般来说面积也需要高一个级别才能看得舒服。这些,同样一方面大大提高成成本,另一方面大大增加能耗。

3、文字识别的软件,如OCR和手写识别的软件,其模型库是与字数和字的复杂度呈不低于线性的关系,因此,繁体字的模型库是简体字的2-3倍甚至更高。相应的,存储空间、CPU运行时间、能耗这些指标,都是至少2-3的关系。为了获得及时的响应,相关硬件指标也需要高一个级别。

4、文字识别软件的准确率,同样会因字数大大增加、笔画增加而下降。这个,可是实实在在地要折算成人力成本,因为错误的校对必须是人完成的。现在大陆手机简体手写输入已经几乎是标配。手写输入不知道有几个人愿意用繁体?而且,即使软件支持繁体,也会比简体错误率高不少,输入速度因笔画和错误率两方面因素大大降低。

5、机器理解文字方面,简体文字更容易。原因无它,简体字少,简体字组成的词也少。机器理解文字的算法,是严重依赖于训练样本的。对文字中出现的任何词,都必须给机器较多的样本,让机器能够较为准确地估计其上下文概率方可准确理解其含义。字数、词数多,就需要更多的标注语料用于训练才能获得相同的效果。而标注语料,那可是需要人力才能准备的东西,我们是口水流8丈都搞不到的东西。象分词这样的任务,繁体字需要比简体字多1倍以上的训练语料才能获得相同的效果。即使你有了这么多的语料,训练出的模型也更复杂,存储、运算开销大,能耗高。

因此,如果单纯讨论计算机处理,简体字完胜。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河