西西河

主题:【原创】汉语和英语的比较 -- 颜赤城

共:💬368 🌺1318 🌵2
全看分页树展 · 主题 跟帖
家园 十三、计算机编码和汉字造字

一里提到如果ASCII码按部首编,就不会有乱码。他所指的细节我不太明白,不过计算机编码对汉字的影响我以前倒是想过。这里面不单是一个如何处理现有汉字的问题,而涉及到编码如何适应汉字发展的问题。本来这一篇是留在最后作展望的,顺序乱了,不管了。

计算机深刻地改变了我们使用语言的方式。比如我们以前写字会写错别字,现在用电脑了,错字绝迹了,你根本没有机会输入错字。但是别字泛滥,大家为了敲字快也顾不了那么多了。别字到了成灾的地步。前面也有有心人给我挑出了帖子里的别字。

新的词汇层出不穷。电视广告里新的产品有新的名字,专业期刊里有新的术语,时尚杂志里有俚语跟踪。对于英文来讲,新词的产生只是个拼写的问题。汉语的新词汇产生,就现在的情况讲也只是个单字组合问题。一个“打”一个“造”,在一起出来一个“打造”。全国上下都在打造着什么。

汉语里的外来音译词比较长,因为外文原文比较长的,比如马达加斯加,长达五个字。但是本土词汇主要是一两个字的长度。(参看第一篇《编码效率》。)500个常用汉字,组合成两个字的词,从数学上讲有25万个可能。一个汉字,到两个汉字,能把社会从远古带到现代。假设人类文明出现的飞跃,思维复杂性有了质变,500个汉字组合到三个汉字长度的词汇就有1.25亿个可能。汉字组合的理论极限非常巨大。

但是中文和英文有一点很不同,中文有一个造字的问题。没有人会扩展26个英文字母,但是我们祖宗可是一直在造字的。我们以前经常会看到异体字,也是汉字造字能力的一个表现。但是现在,就像我们丧失输入错字的能力一样,普通人丧失了发明新汉字的可能性。

这个问题并没有现实需要。虽然《康熙字典》收4万7千多个汉字,但是GB2312的6763个汉字就涵盖了99%以上的中文使用。汉字的数量要减少,而不是增多。

虽然没有现实需要,但是要做千秋大业计,不考虑造字的问题的计算机编码就不是一个符合汉字规律的编码。

大家学什么专业的都有,因此我要非常简白的说明一下这个问题。

现在我用笔写字,比如我“里外”的里字。我在下面的土字多加一横,我就造出一个新的汉字。这是个不好的创造,因为别人看了不知道读音。那么我在里字上面加一个“广”字头,这又是个新的汉字。(不知道是不是真有这个字,假设这是新的汉字吧。)这个字,你一看就知道是汉字,并且你肯定会把它读作里。这是个符合汉字规律的字。

我创造了这个汉字,我可以写信给别人,说漠北有种鸟叫做这个“广里”。别人看了,学会了这个字,也可以使用。如果这个汉字被传播使用,这个汉字就真正被接受了,可入字典。

这就是一个汉字由群众创造并被接受的过程。

这个过程在计算机上面是不可实现的。你目前没有任何办法输入这个汉字,放在网上。别人看到这个汉字,就在他的计算机上敲出来。

曾经有对计算机不熟悉的人听了我的说明,告诉我有个软件可以造字并显示在网页上,我去看了之后发现那是个小的图片文件。所以我挺有隔行如隔山的挫败感的。如果你对计算机不熟悉,我再详细的说明一下。问题是,你不能通过键盘输入一个不存在的字,这个字和其他所有字一样显示在网页上,你的读者再可以通过键盘输入敲出这个字。

但是,这个过程,是完全可以实现的。虽然可能比GB2312复杂得多,并且可能造成用户使用不便。

我粗浅的想法是,第一个是让用户可以以画图的方式自由的造字。第二个问题是用户可以像输入已有的汉字一样输入这个新造出来的字。第三个问题是这些任意造出来的字如何被其他的用户看到和使用。

用一个软件允许用户将汉字的各个元素组织起来,造出一个新码。这个码将含有汉字结构的描述信息,所以可以被其他计算机系统识别出来并显示在屏幕上,并复制到自己的字库里。这样,有人可以造字,造出来的字可以被别人看到。这个码甚至还可以有对应的键盘输入法的信息。其他的计算机将读入,并和自己的输入法联系起来,通知用户。然后这个新字就是像新词的生命过程一样:越来越多的人开始用,被社会认可,国家将其纳入标准,编入国标字库。可以想象,这个码不像个码,而像个自解释的附件,会比较长。我们必须保持现有的简短的标准字库,而允许长的包含汉字结构描述信息的自定义编码。

这只是一个思路,工程上会有很多方案,但是技术上并不是很难,主要是要符合汉字规律。但是涉及国家标准甚至国际标准,不是民间可以完成的。更重要的是,如前所述,现在我们是要规范现有的常用字,而不是鼓励人们造新字。

元宝推荐:铁手,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河