西西河

主题:中国文明只有63岁——《大目标》后记 修正技术错误 -- 马前卒

共:💬216 🌺1256 🌵22
分页树展主题 · 全看首页 上页
/ 15
下页 末页
                  • 家园 不到万不得已汉语不造新字,英语却决不放弃任何新字机会

                    在我看来不过是同工异构,无所谓优劣。

                  • 家园 别砸蛋之类的,写一个中文计算机语言出来给大家瞧瞧

                    别跟我说什么易语言,里面的中文码是半角符号。

                    已有的中文计算机语言本身就是不伦不类的符号,不是拼音,还是象形文字的衍生品。

                    • 家园 这个,计算机语言…………

                      机器语言就是0和1(或者任何两个不同的东东,比如阴阳、AB、是否、Y/N)——反正这个东东到了计算机那里,都变成了电路的接通、断开两种状态

                      然后其他所有的高级语言、汇编语言之类的,都是要翻译成0、1,因此,这些语言不过是代码而已

                    • 家园 原理上应该很容易

                      无论上层(汇编)是用表音还是表意的语言,底层都是1/0;从上层到底层只是个简单的mapping;至于汇编到更高级的语言,本质上也一样,就是个mapping,和计算机语言使用汉语还是用英文没关系。

                      其实编译系统前端就是个文本处理的东西,后端也是CPU ISA逻辑系统的体现,和你用英文/半角有什么关系?易语言其实没问题,虽然太简单了点,但编译系统本质上就是这么个实现原理。它不被接受的原因其实很简单,因为我打"if"比打“如果”要快的多,它一点也不“易”。

                      之所以没有中文计算机语言,其实主要是大家懒。没错,就是懒。对程序员而言,其实必须了解的英文非常少(看技术资料那个不算),C里面总共才几个英文单词?看不到中文计算机语言的需求,而且现有的工具体系/用户习惯已经建立起来了,推翻重来代价太大。

                      • 家园 原理上证明汉字编码效率低

                        汉字的熵值是9.6比特,英语字的熵值是4.0比特,一个ASCII码是8比特(提供256个字符),对付26个字母的英语足够了,而无法对付汉字(9.6比特>8比特)--汉字只好使用16个比特的码。

                        根据申农的通讯理论证明,一个语言的混乱度或非确定性同这个语言的熵值有关。熵值越高的语言,用其进行通信时发生错误的可能越大(容错率低,冗余度低),准确地学习把握使用这种语言也越困难,学习这种语言需要死记硬背的成分也越大,读写分离的状态也越明显。

                        也就是说我们在通信时要克服不确信度就是要减少熵,高熵值语言要克服的不确信度比低熵值语言明显要多。你要提供更多的负熵来克服不确定性,也就越吃力。

                        我们可以看到机器“学习”拼音文字使用8位地址的二进制码而“学习”汉字则要用16位地址的二进制码,明显机器“学习”汉字要背上一个长得多的包袱,占用更多的记忆空间和计算能力。

                        那么推广到人脑这个计算机上,是不是也显示了这个汉字语言系统也有这个特征呢?

                        有人说计算机技术突飞猛进,拼音字母和象形文字这些差异已经不明显了。

                        我同意这个计算机技术发展可以克服汉字占地大,运行慢的缺点,但是对人脑这个计算机来讲就不是那么简单了。

                        首先人脑这个计算机不是生来就是这么有效的---人脑是个随着时间不停进行软件和硬件同步升级的计算机系统--这就是我们所说的大脑发育。

                        我们的大脑容积随着年龄的增长而增大(也不是无限的),我们的情感逻辑分析能力也是在通过学习而增强,其中语言的掌握对刺激大脑本身的发育和逻辑理性分析能力的意义非常重要。

                        由于人类学习语言的最佳阶段是童年大脑发育时期,在这个时期如果将大脑置于图形化式的死记硬背某种语言的学习模式中,对人脑思维方式的固化形成有着巨大的负面影响(三岁看大,七岁看老)--敢想敢说敢干这样的勇于创新精神在死记硬背的学习条件下往往遭受夭折--很有可能造成依样画葫芦图形式的山寨文化。

                        你知道为什么至今汉字就再也不能产生新字(不是新词组)了?--提示一下,这个同占地过大有关系。

                        一种语言里连新字都无法产生,看到一个字无法读出来或听到一个字无法辨识和写出来,你怎么能要求一个使用这种语言的民族有兴趣去尝试自学,创新和升级呢?

                        字是语言里最小的完整组成单元,也是语言扩张的最基本起始点,放弃了这个要点,语言就不能进化或进化不快了。

                        小孩子“牙牙学语”,证明发音对学习语言的重要性,而汉字的非拼音图形化以及读写分离,使得小孩子从小天生具有的语音学习能力被扼杀了,等于把人类的学习能力的至少一半给割除了。

                        少了一半学习能力的民族,怎么会出现大师呢?

                        我相信我已经回答了钱学森之问--其实鲁迅先生早就朦朦胧胧感觉到了--救救孩子。

                        既然知道问题症结所在,当然解决之道就有了。


                        本帖一共被 1 帖 引用 (帖内工具实现)
                        • 家园 你真的看过信息论与通信原理?

                          熵值越高的语言,用其进行通信时发生错误的可能越大(容错率低,冗余度低)

                          通信错误率是信道的特征,和信源没有任何关系。

                          而信息论的核心问题,就是把信源编码到(相同码字长度内)最高的熵值。

                          汉字的熵比字母高得多,这很正确,虽然你的数据可能有问题。但是,依据信息论,(如果二者是可比较的话)汉字是更优秀的信源编码方案。

                          不过,你给的数据本身可能有问题,因为英文字母的熵不可能有4之多(记得根据一些理论估计,极限应当在1.3左右,这是压缩软件可达到的最大理论极限),而英文单词的熵又显然要比4高很多,如果你用的是2为底的对数的话。另外,汉字的熵和英文字母或者词的熵是不可比较的,虽然二者同为熵,虽然物理上熵是无量纲的。

                        • 家园 与字母对应的是汉字笔画而不是汉字

                          你的长篇大论就是废话

                          • 家园 看来你读汉字是从笔画上下手的

                            比如你读“木”这个字是横竖撇捺这样的笔顺读得吗?

                            由于阅读汉字是从图形上下手,相当于囫囵吞枣,本身就造成差不多现象。

                            也正因为汉字读写依赖于图形识别,简化字的设计概念就出现了。

                            同样一本联合国文件,为什么英文文本要比中文文本多1.4倍的页数?

                            • 家园 看来你读英语是从字母下手的

                              比如你读“is”,是先读i,然后读s,变成ai s 的么?

                              由于阅读字母单词是从字母开始,相当于囫囵吞枣,本身就造成了差不多现象。

                              也正因为英文读写依赖于字母识别,缩略词的设计概念就出现了。

                              同样一本联合国文件,为什么英文文本要比中文文本多1.4倍的页数?还不是因为英文缩略词废材,英文表达能力太弱。

                        • 家园 “汉字的熵值是9.6比特,英语字的熵值是4.0比特”?

                          老兄从哪里得来的数字?你能用4比特编码26个字母?9.6比特拿来编码只能容纳不足1千个不同字符而已。你肯定你的数字没错?

                          暂且不论你比较的基础是错的——汉字可以表达基本意思,字母绝大多数情况下不行,必须至少组成单词,你可以再看一下平均一个单词要多少比特——即使你所谓的熵值比较是成立的,后面关于人脑计算机的推论也过于跳跃了。

                          可能你自己都没有意识到,你在假设人脑运行和计算机运行的方式是一样的。事实上这个假设并不成立。照你的说法,数字0-9比26个字母“占地”更小、“运行”更快,为什么人们不抛弃字母转用数字呢?不就是一种编码方式吗?原因在于人脑在识别图形上有巨大的优势,这是在漫长的进化过程中形成的。人脑不是计算机,让人脑以计算机的方式处理事情结果只能是邯郸学步。

                          • 家园 汉字单字是最小语素单位,熵值的确是9.6比特

                            你能用4比特编码26个字母?9.6比特拿来编码只能容纳不足1千个不同字符而已。你肯定你的数字没错?

                            ASCII码采用8位二进制码(可以提供2^8=256个字符码,),每个码信息量为8比特,对付熵值小于8比特的拼音字母绰绰有余,而中文单字的熵值是9.6比特,不能拆分,超过8比特,8个比特的256个位码就不够用了,就必须采用16位二进制码(2个8位码,可以覆盖2^16=65536个中文字)。

                            拼音文字的语素最小单位是字母,英语的26个字母,根据使用频率计算,得出的熵值是4.03比特。如果假定26个英文字母使用频率一致,我们可以简化对英文字母熵值的近似计算得出其值= log2(26)=4.6比特。

                            这个熵值是信息熵,同热力学上的那个熵的量纲不同。

                            有人争辩汉字的笔画是最小字素单元,这个论点是错误的,我在上面的帖子里就提到“木”这个字,我们不是依赖于"木“的横竖撇捺笔画顺序来这样读“木”这个字,而是根据图形识别。

                            阅读英文也不是通过字母的书写顺序,而只要通过单字的第一个字母和最后一个字母来辨识英文单字:

                            点看全图

                            外链图片需谨慎,可能会被源头改

                            而相比之下,太平天国的大平天国和犬平天国的写法错误不能通过单字的本身错误所纠正,而是要依赖上下文来判断---对一个不熟悉中国历史的人来说,大平天国没有一个错字,但他无法知道这个词的错误在哪里。

                            4比特熵值的英语单字可以很容易地克服本身的错误拼写,而9.6比特熵值的中文就要靠上下文来判断单字的错误写作了,这就是汉字的熵值高的表现,必须额外输入负熵(上下文判断)减少混乱度。

                            尽管英语的书写冗余度高,英文的字母排列还包括发音,不仅仅是为了书面阅读所需,还有语音元素,所以其冗余度是拨给用于语音载体,因此准确地排列是必须的。

                            而汉字本身不带有语音元素,全部字素用于视写辨识,最终造成读写分离,同时也给简化字带来可能--简化字类似于mp3的压缩制式。

                        • 家园 兄台究竟读没读过信息论?信源编码和信道编码是这样理解吗?

                          如题。

                          • 家园 还是读过一些的

                            信源编码和信道编码是这样理解吗?

                            现代信息论的创始人、美国数学家商农(Claude Elwood Shannon)曾经提出了“ 商农信道编码定理” 。这个定理指出, 在一个非扩展的无记忆信源中, 用二进制代码表示的码字的长度不能小于信源的嫡。汉字的摘值大, 其相应的二进制码字的平均长度也就很大, 即使是一个最优的信道编码系统, 其二进制码字的平均长度至少也应与汉字的嫡值相等, 这就必然要影响到通讯的效率。从这个意义上说, 汉字的嫡值大对于信道编码是不利的。

                            汉字的熵值是9.65比特,恰恰超过ASCII码的8比特值,所以必须采用16比特码--现实中,汉字编码采用2个字节,每个字符的确占用16比特。

                            在中文信息处理中, 汉字的嫡值大, 也给它在计算机上的输出和输入带来很大的困难。尽管现在汉字在计算机输出和输入已经不成问题, 但汉字输出输入的效率比之于拼音字母的输出输入效率要差得多。中文信息处理不仅仅只是进行汉字的输出和输入, 还要开发人机对话、机器翻译、中文自然语言理解等高技术的智能系统, 这些工作必须编写大量的程序。如果用汉字来编写计算机程序, 而不用拉丁字母来编写程序, 这样的程序的运行效率肯定是不会很高的。从这个意义上说, 汉字的嫡值大对于中文信息处理也是不利的。

                            上面的回答是不是解释了你的汉字通信的信道和信源问题?

                            对于人类的大脑这个在发育时期体积和性能不停扩增的CPU来讲,被高熵值编程语言占领过的运算区域而造成的格式化和模式化,可能永久地影响了这些区域在未来的发挥创造性和逻辑性的功能--我实在希望这些影响将是积极的。

分页树展主题 · 全看首页 上页
/ 15
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河