主题:中国文明只有63岁——《大目标》后记 修正技术错误 -- 马前卒
ASCII码采用8位二进制码(可以提供2^8=256个字符码,),每个码信息量为8比特,对付熵值小于8比特的拼音字母绰绰有余,而中文单字的熵值是9.6比特,不能拆分,超过8比特,8个比特的256个位码就不够用了,就必须采用16位二进制码(2个8位码,可以覆盖2^16=65536个中文字)。
拼音文字的语素最小单位是字母,英语的26个字母,根据使用频率计算,得出的熵值是4.03比特。如果假定26个英文字母使用频率一致,我们可以简化对英文字母熵值的近似计算得出其值= log2(26)=4.6比特。
这个熵值是信息熵,同热力学上的那个熵的量纲不同。
有人争辩汉字的笔画是最小字素单元,这个论点是错误的,我在上面的帖子里就提到“木”这个字,我们不是依赖于"木“的横竖撇捺笔画顺序来这样读“木”这个字,而是根据图形识别。
阅读英文也不是通过字母的书写顺序,而只要通过单字的第一个字母和最后一个字母来辨识英文单字:
而相比之下,太平天国的大平天国和犬平天国的写法错误不能通过单字的本身错误所纠正,而是要依赖上下文来判断---对一个不熟悉中国历史的人来说,大平天国没有一个错字,但他无法知道这个词的错误在哪里。
4比特熵值的英语单字可以很容易地克服本身的错误拼写,而9.6比特熵值的中文就要靠上下文来判断单字的错误写作了,这就是汉字的熵值高的表现,必须额外输入负熵(上下文判断)减少混乱度。
尽管英语的书写冗余度高,英文的字母排列还包括发音,不仅仅是为了书面阅读所需,还有语音元素,所以其冗余度是拨给用于语音载体,因此准确地排列是必须的。
而汉字本身不带有语音元素,全部字素用于视写辨识,最终造成读写分离,同时也给简化字带来可能--简化字类似于mp3的压缩制式。
- 相关回复 上下关系8
压缩 11 层
🙂看来你读汉字是从笔画上下手的 PBS 字243 2012-09-27 13:28:28
🙂看来你读英语是从字母下手的 6 黑传说 字285 2012-10-01 07:09:26
🙂“汉字的熵值是9.6比特,英语字的熵值是4.0比特”? 7 发了胖的罗密欧 字653 2012-09-27 05:10:52
🙂汉字单字是最小语素单位,熵值的确是9.6比特
🙂兄台究竟读没读过信息论?信源编码和信道编码是这样理解吗? jent 字6 2012-09-27 03:26:41
🙂还是读过一些的 PBS 字1287 2012-09-27 23:17:27
🙂你对信源编码和信道编码在汉字上的理解是有问题的。 jent 字50 2012-09-28 04:18:20
🙂看不大懂。 bxbird 字67 2012-09-27 02:36:23