主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学
未来的中国人,是否还能看得懂今天的中文?
说实话,以我这半吊子的古文水平,读起《尚书》来,老费劲了,但是,读起太史公翻译的《尚书》,就省事儿多了。
某一天知道了,在很久以前竟然就有人看不懂前四史了,还得需要有人加注解,才能看得懂,吓了我一跳。是我太聪明了,还是古人太笨?
我承认自己不是很笨,但是,我也不觉得我能比那些需要注解才能看懂前四史的人更聪明,问题出在哪儿呢?
唐朝时期的古文运动,也就是唐宋八大家的散文格式。有了这种格式,后世还有谁会去专门注解唐以后的史书呢?
古文运动起来后,所有上档次的文章,都是“之乎者也”的。后人只要掌握不多的技巧,就能欣赏其美妙。
在当今之世,大多数人都是行文不拘一格,后人有样学样,也不拘一格。不拘一格+不拘一格,就是“不拘一格”的平方,乃至三次方还多,如此循环下去,后人还能看懂今人的文章吗?
当然,今人的文章也大都不足观也,能不能流传到后世,作者本人都不会太在乎。
只好自我安慰一下,后人会比我们更有智慧,能够做好传统和现实的连接。
茎线虫 Ditylenchus destructor
口线虫 Gnathostoma spinigerum
穿孔线虫 Radopholus similes
说正经的,看中文至少我知道这是三种虫子,而且能知道其大概特征,虽然是不是寄生虫一般人还是不好判断。不过这几个英文嘛,我猜一般美国人都不认识。。。。。
当年大学打零工,曾经翻译过几本英文书,大约40w字左右吧(包括哈里波特7,炫耀一下:P)。
要想把汉语翻译舒服了,我的一个体会就必须用大量的短剧,而不是长句。而且在普通人正常说话交流的时候,也很少用长句。短剧看起来更轻松一些,不需要全神贯注的死盯着某个句子看,而且句子之间的逻辑关系,读者可以根据句子的前后顺序看清楚。我的感觉是要求写作水平更高一些。也许是思维差异吧,我自己并不觉得长句子有助于阅读理解。
您说的第一点,可能还是个人差异?至少我自己不觉得您这段话需要空格啊?
“这并不利于速读以及理解长句。英文采用的是词与词之间必空格,而汉语虽然没有这个必要,但也应该根据意思的相对独立性,在无标点时也适时选择空格,用以帮助读者断句。这样有利于书写者组织思维,而且使用汉字可以使得这种断句方式比英文灵活得多。”
我把您的话稍微修改了一下,其实我感觉“逗号”已经完全满足您的需求了。您看看您的原文,除了一个逗号之外,剩下的都是句号和空格,何必呢?
另,英文词与词之间必须空格,否则连起来谁也不知道写的是什么。而汉字不同字之间的差别已经很大了,不会有人把两个字看成一个字,(彳亍之类为个案)。我感觉空格实在是没必要。
最后您那个猫狗耗子的句子,这么多层的逻辑关系,中文同样很少会用长句或者代词,正常人说话的时候会用中文思维(您给的那个翻译,实在不像正常人说话。。。。。。抱歉),比如:你看,那里有条狗在追一只猫,那猫还在追老鼠呢;或者,你刚才看见了吗,一只追老鼠的猫还被狗追呢,那条狗其实blablabla。或者实在非要强调看见狗的话(我不太能理解为什么),也可以说,你看见那条狗了吗?就是跟在那只追老鼠的猫的后面,追着那只猫的狗。
英文就不行了,隔行如隔山。在外国凡是个专家都牛逼烘烘,外行就得高山仰止。你根本不懂人家写的是啥啊!国内的就不同了,只要不是文盲,认识个三五千汉字的普通人对许多专业术语也都能明白个大概。所以专家什么的都没那么受尊重,还经常被喷。同时也盛产大批的无所不知的全才。从这一点来说,倒是有好有坏。
一般地说有文化的说话引几句莎士比亚,歌德就能引人注目. 来句拉丁名言就很另类,除非是很著名的"我来,我视,我征服: Veni, vidi, vici" 或"Caveat emptor: 买家小心". 偶尔还有借用古典故事的GOOSE THAT LAYS GOLDEN EGG(下金蛋的鹅), GOLDEN FLEECE(希腊神话里金羊皮). 中文里并列形容词类的成语,由于拼音语系不流行也不可能流行骈文, 没有出现的可能.
互联网 的 产生 已经 彻底 改变 了 许多 东西。你 说 的 这种 空一格 (也 就是 词语 分写) 的 方式 在 互联网 产生 之前 或许 通过 下 一纸 行政命令 就 可以 达成, 可是在 互联网 产生 之后 再 要 那样 做 就 很 困难 了。过去 日本 采用 限制 汉字 使用 的 政策, 但是 现在 互联网 出现 了, 一个 日本人 要是 只会 教科书 里面 的 那 1945个 汉字 或许 连 看 网络小说 都 会 觉得 吃力。另外我觉得语言使用要考虑的是母语者的便利,而不是外语学习者或者计算机的便利,汉语词语分写或许对老外和计算机有利但是对母语者来说只能是蛋疼。
虽然说象英文这些有人工划分单词,但是词组或语句的意思才是更多场合下要用的。汉语相比较而言主要就是多个分词的过程。后面的语义分析应该是基本类似。现在的计算能力和存储能力,分词的花费也就相对较小了。
其实可以比较一下计算机对中英文语句的平均理解速度。也许在单词水平上中文不见得占优,但在句子或短篇水平上就可能会占优。
你现在想看懂公元前几百年的书籍,还只是费劲。
那让欧洲人民情何以堪啊。不是专业人士,能看懂多少?
1. yours following was well written
http://www.ccthere.com/article/3657960
comment:
人工智能 is to speed up social "学习过程",
量子化 social 語言場, with help of goog and etc;
current social 語言場, high entropy/low information, and everybody has to pay huge premium to wall street, and tg, etc, to some extend; ws and tg are basically some kind of information brokers in a messy social 語言場, like church in the past, and in a high entropy social 語言場, "order" has to be maintained, and everybody has to pay dearly for such an order;
with social 語言場 "量子化", like semi conductor industry's spectacular rise created by qm's 声子 model, "information" will become "real time" and cheaply available, "ws" and tg alike, will be still there, but with much less premium.
2. copied from somewhere
从信息熵角度看中文信息产业的发展
PHILIP ZHANG
--------------------------------------------------------------------------------
前些时候,一些报导说,在中国软件市场,八十年代是中文操作系统竞争,九十年代是中文输入法竞争,从现在起,是办公室套件竞争。这个竞争线条,是按照微软公司中文产品的发展来描绘的:系统和基础科学技术的标准问题,微软公司已经解决,剩下的是应用软件市场开发问题了。
然而,仔细观察一下微软公司的中文软件系列,就能发现基础科学技术方面的错误(不是打打补丁就能修补的臭虫)。这些错误对中国的软件市场、语言文字工作、文化教育事业和有关科研方面造成的误导相当严重,以至于指明这些错误和探讨真理都成了非常困难的事情。如果把中文软件工业比喻作一棵参天大树,那么,微软公司中文系统的错误就出在树根上:微软公司在设计制作中文软件的时候,忽略了信息产业基础建设的核心问题 -- 信息熵。“千年虫”是基础建设过失造成的“定时炸弹”。微软公司产品的系统错误是“定量炸弹”,没有达到一定的程度,很难体会到这颗炸弹对中文信息产业的潜在威胁有多么严重。而达到一定程度的时候,问题可能已经积重难反,损失可能已经造成而难以弥补,中文的信息产业可能不得走回头路。换句话说,尽管微软公司产品的发展线条不能代表中文信息产业发展的实际和需要,但是,如果不搞好基础建设,那么,中文信息产业和软件市场最后还得回到微软公司那里去。
中国早在七十年代就完成了中文信息熵基础工作,八十年代基本上完成了大规模的中文信息熵研究工作。这些,本来应该是中文软件工业的科学技术基础。然而,面临信息时代挑战,一些报刊杂志望文生义地使用信息论的一些术语词汇宣扬“汉字优越”。这些年,微软公司的中文系统被误认为“标准”,几乎成了一种迷信,迫使许多中文软件厂商为幸存而奔忙,无法从事基本建设。这些阻碍了信息科学的基础建设。
这篇文章试图破除对微软的迷信,说明信息熵对中文信息产业和中文软件发展的重要意义,同时,希望中文软件厂商能更多过问科学技术的基础问题,把微软公司误导的中文软件市场转移到正确的轨道上来,也希望中国政府有关部门在制定软件工业标准的时候,要特别注意信息产业的基础建设标准的问题。
【信息熵的来历、基本概念和方法】
美国的信息产业之所以能有今天的称雄世界的实力和接连不断地产生新的技术产品,完全是跟长期基础建设分不开的。这个基础建设的最重要的内容,是如何使用信息科学技术的基本原理和方法:信息熵。
第二次世界大战期间,美国为了提高信息储存和传递的效率,发明了多种新的编码方法,奠定了现代信息科学技术的基础。战争结束后,这些方法得到了飞跃发展。在这些方法当中,科学家闪农和霍夫曼提出的信息熵和数据压缩的理论和方法最能代表现代信息学的基本概念。
这里用闪农最喜欢用的猜谜方法来说明信息熵的基本概念。假如有:
我们大__都喜__使__计__机来管__数__。
不用很多努力,就可以猜出完整的句子:
我们大家都喜欢使用计算机来管理数据。
闪农指出,能猜出来的字符不运载信息,而不能猜出来的字符运载信息。空格所隐藏的字符属于多余度字符,不用那些字符也能运载该句子的全部信息。多余度大小对信息阅读和检错抗错有重要的意义。比如:
我__大________使______机来____数__。
就很难猜出完整的句子,在信息传递的时候,也很难做检错和抗错。因此,保留一定的多余度(或冗余度)是非常重要的。
信息熵方法的基本目的,是找出某种符号系统的信息量和多余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。
信息熵是数学方法和语言文字学的结合,基本计算公式是:
H = - LOG 2(P)
其中:H 表示信息熵,P 表示某种语言文字的字符出现的概率,LOG 2是以二为底的对数,用的是二进制,因而,信息熵的单位是比特(BIT,即二进制的0和1)。
五十年代,现代信息论介绍到中国。七十年代,中国科学家完成了中文汉字字符信息熵的初步计算工作,八十年代又做了更完整的计算。他们的基本方法是:逐渐扩大汉字容量,根据随机试验结果的各种概率,使用公式
H = - E(n, r=1) LOG (2) P (r)
来计算熵值H。公式中,H 是静态信息熵,E(n, r=1)是从r 到n 个结果的和,LOG(2)是以2为底的对数,P(r)是第r 个结果的概率。这个公式是基本公式的一般静态方法,求到的数值是静态平均信息熵。中国科学家冯志伟等人的对中文字符信息熵计算的结果是:
汉字容量:1 1052 1830 4912 5104 5211 12370
信息熵值:0 7.53 9.52 9.61 9.63 9.64 9.65
随着汉字容量增大,信息熵的增加趋缓;汉字增加到12370以后,不再使信息熵有明显的增加。通过数理语言学中著名的齐普夫定律(ZIPF'S LAW)核算,汉字的容量极限是12366个汉字,汉字静态平均信息熵的值是9.65比特,或者说,汉字的平均信息量是9.65比特(见冯志伟提出的“汉字容量极限定律”)。这是当今世界上信息量最大的文字符号系统。下面是联合国五种工作语言文字的信息熵比较:
法文: 3.98比特
西班牙文:4.01比特
英文: 4.03比特
俄文: 4.35比特
中文: 9.65比特
可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大,因而在信息管理和传递的时候处于最不利的地位。
【信息熵的意义:数据储存】
信息熵的直接意义是为信息工程设计提供基本的科学技术依据。就此来说,静态平均信息熵是基础的基础。例如,在为中文数据管理和传递设计硬件和软件的时候,首先要根据汉字静态平均信息熵决定如何储存和使用多大的空间来储存汉字字符。汉字的平均信息熵是9.65比特,每个汉字字符需要两个字节(一个字节等于8 比特)。汉字总量大约有五万六千个,需要十多万个字节才能保证中文信息的储存和传递有足够的待用字符。目前的中文字库包括二万多个汉字字符,占用将近4.5万个字节。尽管这个字库还没有包括所有的汉字字符,却已经是世界上消耗最大和成本最高的字符系统了。此外,汉字还在不断增加,每增加一个汉字就等于增加一个新的字符,需要增加一个字节来储存。这意味着汉字字符方式很难为中文信息管理建立长期稳定和规模合理的数据标准。
英文等拼音文字的平均信息熵大都4.5个比特以下,每个字符只占用一个字节。例如英文,一共有26个字母字符,大小写和各种标点符号都算上,只要90字节左右就够了,不到中文字符消耗的千分之一。此外,在增加新的词汇的时候,这些拼音文字不需要增加新的字符,也不需要增加新的字节消耗,因而能够建立长期稳定和规模合理的数据标准。这是英文等拼音文字方式更适合信息数据管理的基本技术因素。
【信息熵的意义:数据管理】
信息熵大小的另一个重要意义是表明某种字符系统的效率。一般说来,文字的字符信息熵越大,原始数据输入的工作量越小,工作效率就越低。
这里用二进制和十进制的数字信息管理说明。二进制只有两个符号,0和1,是规模最小和非常单一稳定的标准,可原始数据输入的整体工作量也是最大的。比如99这个数,二进制输入是“1100011”,要七个字符。用十进制,输入是“99”,两个字符。可是,十进制需要十个数字符号做标准,比二进制的规模大得多。在做数据管理的时候,二进制的功能强,灵活,而且非常简洁。十进制的信息量比二进制的大,可作业效率却比二进制的低得多。然而,二进制的多余度最小,人阅读起来很困难。十进制的多余度大,适合人类阅读。因此,机器用二进制作业,人用十进制阅读。
这个对比说明,使用信息量大的字符系统,原始数据输入工作量可以降得很低,其代价是总体效率大大降低。如果信息量过大,那么,该字符系统就有可能仅仅用来作数据储存和检索,而不能用来作数据标准。
不同信息量的字符系统可能有近似的多余度。据有关专家计算,中文和英文等拼音文字的多余度基本接近。计算方法是:
R = 1 - H(LMT)/H(0)
其中,R是多余度,H(LMT)是极限熵,H(0)是平均最大熵。由此计算,汉字的多余度是56%到74%,平均值是65%左右。美国专家BURTON和LICKLIDER 根据闪农的试验方法,算出英文的多余度在67%到80%,平均为73%左右。中国信息学和语言文字学专家冯志伟和尹斌庸等人指出:多余度高使语言文字精密,太高了就会造成学习和使用的烦琐浪费;中文和英文等拼音文字的多余度相差不大,说明它们的精密度相差不大,因而不存在语素方面的孰优孰劣的问题。可见,造成汉字方式整体效率低的基本因素不是多余度,而是信息熵。这才是问题的核心。
【信息熵的意义:数据传递】
计算机信息传递有两种方式:并联和串联。并联方式是:一个字节的八个比特同时传递,好像八座门同时打开,八个人同时进出。并联多用在小范围和短距离的数据传递,例如:计算机和印刷机的联接,一个办公室或一个办公楼内部的计算机联网(LAN),等等。并联的好处是速度快,问题是成本高。比如,在两个城市或两个国家之间用并联,那么,光是电缆的成本就高得很,更不要说有关的设施和维护了。
串联的方式的成本比并联的要低的多,因而,在大范围和长距离的条件下作数据传递,大都用串联。国际网络用的就是串联(一些用户或网站自己可能用并联)方式传递数据。
串联传递的时候,字符的字节是按照一个个比特来传递的,即一连串的0和1,实现过程是一连串的开关电路。通讯收发到一定比特数量,必须确定一个字节是否传递完毕,以便将一连串的0 和1 转换为人可以阅读的字符。
英文等拼音文字的的平均信息熵小于4.5比特,一个字节有八个比特,因此,可以将剩余的比特用来作奇偶检验和抗错。中文的汉字方式需要两个字节,在建立字库的时候,两个字节的比特全都用满了,没有剩余的比特来作奇偶检验和抗错。这是中文网络通讯中很容易出现坏码(不是乱码)的基本原因之一。乱码没有编码损失,可以通过兼容来避免乱码,或者通过字节重新组合来挽救信息损失;而坏码是编码本身的损失,消减甚至丧失了兼容和字节重组的可能,很难挽救信息损失,即便能做些弥补,成本也是非常高的。
为了满足多种语言文字网络通讯和防止坏码的需要,国际网络(如英特网)广泛采用MIME方式传递信息(MIME是Multipurpose Internet Mail Extensions的简称)。MIME方式的基本工作原理是:按照一定的进制,将所有的字符字节转换成国际通用ASCII 纯文本字符(每个字符用7个比特),以便能保证传递数据的兼容无损。
MIME方法的核心是使用七比特数据方式(7 BIT DATA方式,纯文本字符方式)传递信息,剩下的一个比特作奇偶检验。这种方式通用于所有的计算机和网络渠道。英文等信息熵小的拼音文字本身就使用纯文本字符,不需要MIME转换。中文字符信息熵大,没有MIME转换就很容易出现乱码或坏码。转换是有成本消耗的,而汉字方式的成本消耗是世界上最大的。
【超级计算机能提高汉字方式的效率吗?】
随着计算机的速度和储存能力等个方面的提高,中文信息管理和传递的困难是否会自动得到解决呢?不一定。困难是汉字方式本身的问题。例如,即便我们用四个字节来作国际标准字符集(国际标准组织IOS 已经多次提出这个方案),使每个汉字有足够的比特剩余来作奇偶检验和特性参数,然而,数据全面管理和传递的效率问题依然存在。原因是:
(一)中文数据的文字方式决定了标准的多重性和规模过大,而且,只要汉字还再增加,它的字符集就是不稳定的。不管一个字符用多少字节,也不管计算机的储存容量有多大,这样的字符集做数据储存和检索还可以,做全面的数据管理就总是有严重问题。
(二)汉字输入输出的字符仍然需要多次转换,还是高成本和高消耗的。现有的中文输入方法跟语言文字的标准规范之间的差别依然存在,人的操作和学习等效率还是没有得到提高。电笔输入作鉴别(如签字)的效果很好,但是,如果数据规模大,效率就不如键盘操作。声音输入作指令和小规模数据输入还可以,做大规模数据输入,就会因为劳动强度太大而不现实。更重要的是,键盘操作基本上不影响思维,而声音操作的脑力消耗比键盘操作的大得多,严重地妨碍思维。微软公司说,它的多媒体声音输入可以让中文输入更轻松愉快,那是商业夸张。电笔输入和声音输入是非常重要的技术,但是,这些技术突破并不能解决中文的效率问题。
(三)拼音文字的每个字符只要一个字节,现在用两个字节的联码(UNICODE),已经有一个字节是多余的,在做数据处理和传递的时候,为此多支出了一倍的成本(包括处理多余字节的程序消耗)。这些多余成本基本是为了迁就中文等亚洲文字的需要,对拼音文字本身来说,基本上没有意义。如果用四个字节,就有三个字节是多余的,拼音文字就要多支出三倍的成本。在可见将来,各方面的发展能否抵消这些多余成本,还不清楚。使用拼音文字的各个国家是否乐意为了中国汉字的需要而继续牺牲自己的利益来年复一年地支出更多和毫无回收可能的成本,也不清楚。
(四)通讯传递中,汉字字符由双字节变成了四字节,使原来的成本和消耗增加了一倍,平衡或抵消了字节增加和速度提高所带来的效益。
中文效率的问题不是出在计算机方面,因而,不管计算机技术怎么发展,中文的低效率问题就依然存在。再说,计算机技术发展,所有的语言文字都得益,相比之下,原来高效率的文字方式的效率仍然是高效率的,汉字方式仍然难于跟拼音文字方式的效率相媲美。
【信息熵:鉴别微软公司中文产品的有力工具】
信息学的基本方法说明,把多余度规模控制在合理范围,是提高字符运行效率和计算机编码的中心课题。可是,将近二十年来,中文软件的发展基本倾向是不断地为输入方法加码和编制新码,只考虑市场利益,根本不考虑信息科学技术的根本问题和基本要求。微软公司搞的“智能”等输入方法是一个突出代表。例如,该公司说,使用它的“智能”输入方法,只要打出一个或数个汉字的编码,就能显示出整个词组或句子。微软公司把这样的方法称为“世界级”的高科技。其实,这种方法不外乎两条:
(一)用数理统计方法列出字符组合的可能,把这些可能储存起来,根据用户打出的特定字符来寻找和显示这些可能。
(二)用数理统计方法归纳字词之间的联系的可能和频率,建立这些可能和频率的索引,储存起来,根据用户击键的先后次序,寻找索引,再根据索引调度字符串,显示出来。
这些方法,可以用“对号入座”来比喻。早在八十年代初期,许多英文文软件厂商就已经使用这些方法了,厂商可以预存各种可能,用户也能根据自己的需要来规定如何“对号入座”调动字符。然而,那个时候,各个厂商从来没有把这些方法称作“智能”技术。基本考虑是:(一)按照信息科学技术的基本原理来保证信息熵和多余度之间的合理比例关系,从而能保证英文信息有长期稳定的数据管理标准。(二)严格说来,“智能”技术是思维技术,即根据已有知识作出新东西,而“对号入座”是重复预存规定的机械动作,并不产生新东西。
在英文市场,微软公司没有把“对号入座”宣扬成“智能”方法,否则,就会引起大家的笑话。然而,微软公司却在中国把“对号入座”的方法称作“智能”高科技来到处兜售。为此,该公司用了许多数学方法证明它的方法有多么先进,例如,用统计方法和树理论证明“智能”和“联想”输入法,用模糊数学证明词句联系和检测,等等。对没有学过有关数学方法和信息熵理论的人来说,那些新鲜词汇的确挺吓唬人,有可能为之蒙蔽,以为微软公司的方法可能真的是“世界级”的高科技。然而,如果了解了有关原理和方法,就能看出,微软公司的作法,不过是把早已有的“对号入座”方法冠以新的时髦词汇,对中文效率的提高并没有任何本质上的积极贡献。如果那些“对号入座”真的是“世界级”的高科技的话,那么,该公司为什么不把它用到英文市场呢?
中文的信息熵本来就大,已经给信息管理带来不利条件。微软公司的方法不但对中文效率的改善提高毫无积极意义,而且还增加了数据管理的消耗和成本,甚至破坏了语言文字和信息管理的基本标准和规范。不过,微软公司最关心的是中国市场的利润,而不是中文信息科学技术的前途。现有的汉字方式对微软公司是非常有利的,该公司自然要它为眼中的“汉字文化传统”吹捧,甚至还把这种谬论和方法冠以“中文信息处理的重大技术突破”和“世界级”高科技产品的美名。这是愚弄人。事实最能说服人。让我们来看一个例子。下面的段落从微软公司的中文新闻报告(一九九九年三月四日)中直接摘录的:
“中文处理能力有重大突破 Office 2000在中文处理方面也有重大突破。Office 2000中文版 集成了最新的微软拼音输入法2.0并首次引进中文的语法校对和拼 写检查。使得用户可以使用使用鼠标而无须其他设备来实现中文手 写输入;并成功实现了基于Unicode的繁体中文简体中文之间的相互 转换,为全球范围炎黄子孙进行中文交流提供了更有力的工具;汉 语拼音的注音功能则为中文基础教育提供了方便。”
受过基础语文教育的人都能看到,这段话有不少基本常识的错误。例如:第二句里的“集成了”应该是“汇集了”。“使得用户可以使用使用……”一句当中,“使用”一词重复。这个句子没有主语,标点用了分号,使后面的并列句全都成了没有主语的错句,同时,有的并列句在分号后面用“并”,后来的又不用连接词了。在“并成功实现了……相互转换”一句中,“繁体中文”与“简体中文”中间少了“和”字,而“提供了更有力的工具”的“更”字,事先没有列出比较对象,是多余的。这些都不符合中文语法的基本常识和规范。从写作方面来看,这段话写得很别扭,阅读起来不通顺,很难上口朗读。
这么短短的一段新闻报导,错误如此之多,微软公司的所谓“中文处理能力的重大突破”到底是什么?它的那些数理统计、树理论和模糊数学等等方法证明的高科技,使用的结果就是这个样子?这就是它的“世界级”的“智能”技术水平吗?
从信息论的角度看,微软公司中文软件系列的“智能”方法造成了不少误导作用:它破坏了中文多余度的合理比例和相对稳定,违反了国家颁布的语言文字的基本规范,加大了中文语言文字学习和使用的差距。不管微软公司用了多少时髦词汇来描述它的中文软件产品,违背信息论基本原理和方法的错误依然存在,对中文信息产业的“定量炸弹”的威胁依然存在。
【基础建设是中文信息产业的根本】
从以上阐述可以看出,汉字信息量大,是中文信息管理和传递成本高、消耗大和效率低的基本原因。汉字为中国文明的延续发展发挥了巨大的历史作用。今天,汉字方式是阻碍中文信息科学技术发展的头号困难因素。中国可以在信息工业的机械设计和制作方面赶上世界先进水平,然而,如果不能改善中文的信息熵和多余度之间的关系,那么,中国的信息产业的整体就总是低效率的,就总得跟着别人后面走,难免挨打。一些美国人担心中国发展计算机和导弹技术会造成“中国威胁”,那的确是夸张了。即便把美国所有的计算机技术和导弹技术都交给中国,只要中国还是按照汉字方式来操作,那么,在计算机和导弹技术方面,中国就总是处于不利地位,总是赶不上美国。中国火箭导弹技术专家钱学森等人早就说过:如何提高中文的效率是关系到国家安全的大事情。
许多从事中文信息熵研究的科学家们说:中国失去了整整一个打字机时代(工业革命),对中国的科学技术和文化教育带来了不利影响。在计算机信息时代,汉字方式和现代科学技术矛盾更加深化了,其中最大的问题是如何利用信息熵的方法来优化中文数据的管理和传递,即文字方式和书写工具(例如计算机)的最优结合。面对日益强盛的信息工业挑战,中国科学家是有充份准备的。如果中国能按照原来准备好了的方向发展,那么,中国的信息产业(包括软件产业)就会避免许多弯路,微软公司对中国软件市场的误导作用也不会那么严重。
然而,这些年来,中国有些报刊杂志(其中包括某些官方大报刊)望文生义,以为“汉字信息量大”是好事情,把它作为鼓吹“汉字优越”论的依据,甚至把这些违背科学技术基本原理的谬论贴上爱国主义的政治标签。这种宣传极大地误导了人们对信息科学技术的理解。这不是在搞科教兴国,而是在加重中国信息科学技术发展所面临的困难,特别是加重了政治和文化方面的困难。信息科学技术跟语言文字息息相关,它的发展自然对许多国家的民族传统文化提出了挑战,其中包括对美国一类的信息工业大国的挑战。中国的历史悠长,文字方式独特,受到的挑战自然就最为严重。面对科学技术的挑战,就要用科学技术的发展来迎战,用极端民族主义的作法,最后总是失败,传统文化最后也还是保不住。中国主席江泽民多次提出,中国需要文艺复兴。这个号召有重大的历史意义,指明了中国民族传统文化延续和发展的唯一出路。文艺复兴的一个基本内容是文字方式必须符合时代发展的需要。“汉字优越论”所提倡的不是中国的文艺复兴,而是在鼓吹文艺衰退。
中国政府可以通过法律手段和标准专利等手段来为国产软件和信息产业的发展提供环境保护,民间可以用文学作品等各种方式抵制外来货。然而,“发展才是硬道理。”中文软件和中文信息产业到底能不能在日益全球化的竞争中幸存,还得看自己的科学技术的基础建设搞得怎么样。就目前和可见将来的状况来说,中文信息产业基础建设的核心课题,就是如何利用信息熵的基本原理和方法来提高中文的效率。
【作者补充】
《光明日报》(99/9/8)把我的这篇文章作为开头,开始组织有关中文改革的专栏讨论。我衷心希望这个讨论能搞成真正的科学技术的讨论,而不是极端民族主义情绪的宣泄或为某种商业利益服务的争论。看了《光明日报》发表的讨论文章,有所感,附上供读者参考。
中文改革是为中国文化造福,不是抛弃中国文化。
雷海涛的文章《古老汉字绝非中国信息化的障碍》(《光明日报》99/9/8)有些提法不妥。例如,作者说:“电脑的字库里预备了常用汉字(包括次常用汉字),应该说已经基本够用。不过,这和英文的26个字母相比还是一个非常大的数量级。……就此有的人说,在电脑时代汉字是中国进入信息时代的瓶颈,甚至有可能使汉字这一古老的文化载体,成为阻挠今日中国走向现代化的难关,因而应该抛弃汉字,而使用拼音文字。这些说法无疑都是武断的,没有进行认真研究而做出的结论。”
常用字数量可以用来编写语文教材和工具书,也可以用来编制应用软件和制造电子字典或词典,甚至可以用来作语言文字的国家标准和规范,但是,常用字数量至多是信息科学技术中做统计研究的一个数据,而不是信息科学技术的基础依据。例如,当前多数计算机和网络都使用UNICODE(联码,基本包括所有现代语言文字字符的编码)。UNICODE 的根据不是各种语言文字的常用字(词)覆盖面,而是文字字符的信息熵比特数值。在UNICODE 范围内,可以编制2500字的汉字字库,也可以编制25000字的汉字字库。不管字库有多少字,汉字信息熵决定了每个汉字字符都需要两个字节。这是所有中文计算机硬件和软件设计的基本依据。在做信息熵计算的时候,不能只考虑常用字符,而是要使用字符的“容量极限定律”。况且,计算机做数据管理的根据是字符书写方式和字符编码指令,而不是常用字数量。例如,在编辑电话簿的时候,数据处理的根据是名单的文字书写方式和对所有字符编码的处理指令,而不是名单用了多少常用字。在今年九月召开的第十五届UNICODE 国际讨论会上,各国代表集中讨论的是文字符号的书写方式和信息科学技术发展的关系,而不是常用字符的多少。
常用字数量是相对的。这些年常用的字,过些年就不常用了;而过去不常用的字,今天却可能很时髦。例如“酷”字,以前除了说“酷爱”、“冷酷”、“残酷”和“严酷”,基本很少用。现在,到处都用“酷”,比当年的“盖了帽了”要常用得多,“酷”字成了常用字。再说,不管一个字符是否常用,只要包括在数据里,就得按照通用于所有字符的和相当稳定的标准规范来统一处理,否则,数据管理就乱套了。因此,常用字数量不能作为数据管理的标准依据,更不是观察汉字在电脑时代是否有“瓶颈”的依据。
所谓汉字方式在电脑时代遇到“瓶颈”,指的不仅仅是作者提到中文输入输出、储存和检索,而是全面的数据管理。如果光考虑计算机的中文输入输出、储存和检索,那么,美国IBM 公司早在60年代就全部实现了,到现在已经是30多年的老技术了。就微软公司在中国鼓吹的所谓“智能”输入法来说,美国软件WORDSTAR和WORDPERFECT 早在80年代初就实现了,加拿大一家公司制作的中文软件TIANMA也早在1984年就已经做到了。即便就考虑中文输入而不考虑其他,在中国,60年代就开始了有关试验研究,80年代以后出现了“万码(马)奔腾”,到现在,前后30来年,投入的人力、物力、资金和时间是世界上最多的,然而,不少问题还是没有解决。如果没有障碍需要克服,那么,仅仅为了输入就做那么大的投入,岂不是无的放矢和浪费吗?
如何克服障碍?中国政府早就有了答案:坚持中文现代化的发展方向,坚持现代汉语拼音方案,坚持语言文字的标准规范化和有关的文字改革。1999年6月30日,中国国家主席江泽民和其他领导人接见了《当代中国》的编写组,其中包括该丛书《当代中国的文字改革》卷的科学家。在接见的时候,各位领导人充分肯定和高度评价了1949年到1985年文字改革工作的历程和成就,鼓励科学工作者继续坚持政府提出的政策,把现在和未来的工作做得更好。雷海涛的文章把中文改革的图景描绘成“抛弃汉字”,“是武断的,没有进行认真研究而做出的结论”的说法,不但不符合中文改革工作几十年的历史事实,也不符合中国政府一贯坚持的有关政策,更不符合国家领导人的殷切期望。
作者把中文发展和向拼音文字学习对立起来的说法是极为不妥的。向拼音文字学习来搞好中文现代化,是许多中国科学家和文学家经过一百多年的努力而获得的认识,不是这十来年计算机普及才开始的想法。
1892年,中国清政府就开始尝试用拼音文字的方法为中文建立一套拼音字母系统。世纪之交以后,发生了历史意义非常深远的新文化运动和白话文运动,其中一个很重要的成就,就是采用拼音文字的标点符号,把中文传统的单字堆积写法变成了分句写法。20年代和30年代,中国科学界提出了采用罗马拼音文字方法跟汉字结合使用的主张和具体措施。后来,文学家茅盾等人提出了拼音和汉字并用的“双文制”的主张。在那前后,鲁迅、巴金、赵元任、曹禺、郭沫若、老舍、戴望舒、林语堂、周有光、王均、吕叔湘等等许多世界著名的中国文学家和学者,都是中文改革的坚决支持者和实践者,对中文现代化作出了卓越的贡献。他们中间许多人的作品在历史上之所以有地位,跟历代作品一样,是因为集中记录和反映了语言文字的变化和时代的特征。
在延安时代,毛泽东等领导人一直关心文字改革工作,大力支持陕甘宁边区政府主席林伯渠召开了拥护拉丁化新文字大会,宣布边区政府在法律上给予新文字合法地位,让大众有使用“双文制”的自由选择权。这是中国历史上第一次使中文采用拼音文字方式全面合法化的政治建设和法律建设的成就,为新中国成立以后继续推行中文现代化的事业打下了政治基础和法律基础。
1958年,现代汉语拼音方案问世,解决了汉唐以后两千年没有解决的中文语音字符的问题,在向拼音文字学习方面跨出了重要的一步,是中文发展历史上的一件大事。多年来,现代汉语拼音方案不但是中国的国家标准方案,而且是联合国等国际组织处理中文文件的标准方案,同时,美国政府、美国国会图书馆和许多科研教育机构,也把现代汉语拼音方案作为管理中文文献的标准方案。从现代汉语拼音方案问世到现在,该方案一直是中国语文教学的基本内容之一。
60年代,中国科学院语言研究所编写的《现代汉语词典》完成,首次采用以拼音字母为主排列中文词汇的方法,取得了巨大成功。70年代末和80年代初期,纯粹用拼音分词方式排列中文词汇的方法,在对外中文教学试验中也取得了很大成功。这两个成功,为如何实行“双文制”提供了重要的参考经验。目前,中国许多报刊杂志的刊头,都使用“双文制”,将汉语拼音字符和汉字并列使用。
可见,向拼音文字学习来搞好中文现代化,是中国政府的一贯政策,取得了举世瞩目的伟大成就,得到了中国人民和全世界各国人民的承认和称赞。不幸的是,这十多年来,有关政策和发展成就被歪曲为“全盘西化”,甚至被一些人作为“左倾路线的产物”而否定。雷海涛的文章把中文发展和向拼音文字学习对立起来,恐怕是因为没有好好看看中文发展的历史,也没有好好学习中国政府的一贯政策。
需要说明,我的文章的原名是《从信息熵的角度看中文信息产业的发展》,而不是《光明日报》改成的《汉语的‘信息熵’劣势》。修改的题目不妥,可能会造成“汉语劣势”或“中文劣势”的误导,因而可能会把用我的文章作开头而提倡的辩论引至错误的方向。如果修改的题目是“汉字的信息熵劣势”,我还可以勉强接受。一字之差,意义完全不一样。我曾经就此请教过中国有关部门的领导和专家,他们同意我的看法,希望能做公开说明和纠正,避免误导。
信息熵的对象是符号系统及其效率,不是语言或语言的优劣。语言不存在优劣的问题,而文字方式则存在效率高低的问题。同一种语言可以用不同的字符书写记录,因而可以有不同的文字符号信息熵。同时,不同的语言也可以有非常近似的字符信息熵,例如,英文、西班牙文、法文、意大利文和德文各有千秋,然而,它们的文字方式基本同根(古代拉丁文),因而它们的信息熵非常近似。
提到英文就想到ABC、提到中文就想到方块字,是一种文字方式长期为某种语言作书写记录的结果,并不能说明一种语言和一种文字符号的关系是天生如此和一成不变的,更不能说明一种文化只能有一种不变的文字符号。因此,一说到中文改革,就作汉语汉字和拼音语言文字之间孰优孰劣的比较,实在没有必要,在科学技术原理上也说不通。用从北京到上海旅行打比方来说吧:选择坐牛车还是坐火车,全看需要。想慢慢悠悠、不计成本效益,就坐牛车;想快一点、讲究成本效益,就坐火车。不管选择什么车,旅行者还是自己,没有优劣之分,不同的是旅行效率。同样,在信息科学技术时代,中文面临的挑战是文字方式效率的选择能否满足中国现代化长征的需要的问题,而不是中文的优劣或汉语跟其他语言相比孰优孰劣的问题。做那种比较,实际上是极端民族主义心理在作怪。我这话说的可能有些激烈,却是那种比较的本质。
从传说的黄帝时代造文字到现在,因为历史发展的需要,中文书写方式发生过多次变化。然而,中文还是中文,中国文化不但没有消亡,反而更加丰富多采和发扬光大,同时,中文的使用和学习效率也随着每次变化而不断提高,为中国的科学文化水平发展进步做出了巨大贡献。认为搞中文文字改革就是抛弃中国文化的想法,不但不符合中国文化发展的历史事实,而且也过低估计了中国文化在变化中幸存和发展的能力。说实在的,那种想法不是在说明保护中国文化的意愿,而是反映了对中国文化发展前途感到悲观的某种消极情结。
I kind of agree with 墨虎 (his post some where") that we chinese are hugely smart, ...but like everybody, we can't fall behind the next "great thing".
陈省身, 楊振寧, gauge field theory, math and phyiscs, and the consequent QCD, we are almost at the limit of human mind, really cutting edge
--------------quoted---------
http://blog.sciencenet.cn/home.php?mod=space&uid=3377&do=blog&id=452745
数学界的玻尔——陈省身 精选
已有 6590 次阅读2011-6-8 00:01|个人分类:拾穗记|系统分类:人物纪事|关键词:陈省身,几何,物理,玻尔
端午,岳麓山大雨,宅。
读《陈省身文选》(科学出版社,1991) (以下简称《文选》),《数学与数学人第一辑——纪念陈省身先生文集》(浙江大学出版社,2006) (以下简称《纪陈》),等。很容易发现如下一个事实:在创造历史、提携后辈、团结学界、形成学派等等方面,陈省身先生和量子论的开山鼻祖尼尔斯.玻尔,有诸多共同点。不过把二者做一个详细比较,风格比较不那么博客。不如把我印象深刻的几处摘录一下,分门别类,记有十点。
一,同时站在Blaschke,Cartan和Weil的肩膀上
陈先生的求学过程中,经历了两次飞跃一般的成长。这两个飞跃,陈先生一生中多次提到。
飞跃之一:1934年陈先生果然离开清华,离开“投影微分几何”这个领域,进入德国汉堡大学,师从Blaschke,两年后获博士学位。
飞跃之二:1936年师从Cartan,时间虽仅十个月,但和Cartan密切接触,“十个月决全力应付每两个星期的Cartan会见”(《文选》,P.21),“紧张异常,收获亦超常。”(《纪陈》,P.176) “事后看来,我想这是一个很正确的决定,因为Cartan的工作当时知道的人不多,我最得意的地方就是很早进这方面,熟悉Cartan的工作,因此我后来能够应用他的发展方向继续做一些贡献。”(《文选》,P.54)
这两次飞跃之后,数学于陈先生几如进无人之境。“跃上葱茏四百旋。冷眼向洋看世界,热风吹雨洒江天。云横九派浮黄鹤,浪下三吴起白烟。陶令不知何处去,桃花源里可耕田?”
“那时Weil和Allendoerfer合作证明了高斯-博内公式,但是Weil坚信,一定有内蕴证明而不需要复杂的每次必须把一片片流形嵌入到欧式空间中。陈先生把这个问题记在心头,不出两个礼拜就得到了内蕴证明的主要思路,包括用不可思议的计算显示出高斯-博内公式只是主丛上的一个恰当形式。”
——伍鸿熙,《纪陈》 P. 97
“陈对Gauss--Bonett公式的证明,与1942年Allendoerfer和我效仿Weyl等作者的步骤给出的一个证明相比较,不难体会到其中意义的所在。......,而陈的证明第一次明确的用到内蕴丛,即长度为1的切向量丛,一切阐明了全部问题。”
——A. Weil,《纪陈》 P.7
二,评价四色定理,Erdos问题和数论
四色问题: “‘对于这一问题的兴趣是由于它的困难,其重要性实不及其他许多未解决的基本问题。’”“这一预见被多年后的事实所证明。实际上,‘四色问题’的研究并未给数学带来重大的新思想与新方法。”
——王元,《纪陈》 P. 28
“思考Erdos的问题是很危险,因为这些非常有趣的问题可以花费你几个星期的时间,然后却什么也得不到。在我研究此问题的时候,Andre Weil对我说:‘不要做这些了。’”
——陈省身,《纪陈》 P. 131
“整数论固然美丽,代数数论才是堂奥。它和代数几何不可分割。”
——陈省身,《文选》 P. 309
三,“一位轻巧驾驭微分的魔术师”
“陈先生的拿手好戏是用活动标架及外微分,我也曾学步,用外微分d一下,外微分很容易,但做完之后就惆怅了。”
——郑绍远. 《纪陈》. P. 120
“和许多人一样,我对陈的‘令P为一点,dp是它的微分’也是绞尽了脑汁,到后来才懂的这种记号对于恒等映射及其微分是多么的方便。”
——I.Singer,《纪陈》.P.44
“他是一位魔术师,时而选取M上的一点P,时而轻巧的驾驭dp-我们要华多少年才能掌握这个技巧。”
——R. Bott,《纪陈》.P. 46
“他的一个令人印象深刻的诠释是:‘切向量是男的,微分形式是女的。所以,当然微分形式更加能干’”。
——B. Lawson. 《纪陈》. P. 75;——胡森,《纪陈》. P. 194
四,一个人二十岁一定要知道自己的短处并回避之
1926年,陈先生15岁入南开大学,开始时选修了一些化学课程。“初进大学时......。我的实验经验,差不多是没有的,......。当天指定的工作是吹玻璃管,我自然弄不好。幸亏化学系有一位职员在实验室,在将结束实验前,代我吹了一些。我拿着玻璃管觉得还很热,就用冷水一冲,于是前功尽弃。”
——陈省身,《文选》 P. 28
五,“做学问一定要跟有学问的人在一起”
“我毕业时得到很多学校的聘书,当然都是由于先生的推荐。先生认为普林斯顿研究院才是做学问最佳的地方,虽然薪酬比其他地方少了一半,我毫不犹豫的接受了先生的建议。我记得先生对我说:‘做学问一定要跟有学问的人在一起’,这句话使我一身受用。”
——丘成桐,《纪陈》P.108
六,为了好学生的前程不拘一格
“陈省身先生特别看重别人身上的能力和潜力,而不是弱点。由此产生的一个结果就是,他周围的人们往往能够比在别人处获得更多的发展机会。一个很好的例子就是Bob Uomini的故事。Bob是伯克利的本科生,曾经上过陈省身先生的课,他非常的想读研究生,但遭到了拒绝。他求助于陈省身,陈先生认为这位学生数学学的不差,于是写信为他求情获准。Bob最后在我的指导下获得博士学位。”
后来这位学生中千万美元彩票,回报伯克利,出巨资设立陈省身讲座教席,建立数学科学研究所(MSRI)等等,以表示对陈省身先生的敬意。
——B. Lawson,《纪陈》P.75;——滕楚莲,P. 149;——D. Eisenbud,P. 210
七,“To be,or not to be”
Chern-Simons 示性类中的Simons后来离开了数学界转入了金融,2003年华尔街投资经理人薪水排行榜高居第三。当他处于学术生涯顶峰的时候决定离开数学界。陈省身对Simons的离去的评价是:
“嗯,反正Simons不是David Hilbert。”
——J. Simons,《纪陈》 P. 67
关于数学研究的动机,“陈先生希望我更加现实一些,他说他倾向于同意G. H. Hardy的观点,即关键的动力来自渴望得到同事们的尊敬和在竞争中胜出的感觉。然而,他也承认一个伟大的灵魂,例如苏格拉底,可以处于一种不同的目的。”
——H. Garland,《纪陈》 P. 80
八,不能从《易经》出发研究现代数学
“陈很少生气发火,以至于他发一次火就会引人注意。我记得一个小小的例子:他因有人想将一篇根据《易经》所写的文章发表在1988年美国数学会的整体分析暑期学术年会的文集上而大为发火。作为一名有自尊心的中国知识分子,他认为这是一种典型的倒退。”
——F. B. Browder,《纪陈》 P. 50
九,科学在中国还没有生根
“讲得过分一点,甚至可以说中国古代没有纯粹数学,都是应用数学。这是中国古代科学的一个缺点,这个缺点到现在还存在。应用当然很重要,但是许多科学领域的基本发现都在于基础科学。”
——陈省身,《纪陈》 P. 188
“人往往从两个方面思考自己在世界上的位置:人和自然的关系以及人和人之间的关系。西方多考虑人和自然的关系,而中国人多考虑人与人之间的关系。西方人讲人与自然的关系,人要改造自然,就要求社会和自然不断地变化、进步,这样就造成了社会的不稳定。中国的孔子、儒家主要讲人际关系、讲稳定,不愿讲自然的基本规律以及人和自然的关系,想不到,也不鼓励讨论这些问题。所以在科学、哲学方面的发展不多,即使有,也多在应用方面。
——陈省身,《纪陈》 P. 183
“科学在中国还没有生根。” 四十年后的今天,陈先生仍对我们讲这句话。
——陈省身,《纪陈》 P. 189
“我们需要一个新的信仰,光靠科学是不够的。”
——陈省身,《纪陈》 P. 183
十,中国何时才能成为一个数学大国?
“假以时日。”
——陈省身,《纪陈》 P. 182
楼主说读英文时大脑工作顺序是:字形-〉发音-〉意义,读中文时顺序是:字形-〉意义。
问题是我经常读着英文试图直接跳过发音,或者读着中文过渡纠结读音,结果中英文速度都受影响。
1956年1月20日,毛泽东在知识分子问题会议上的讲话。
“关于文字改革的意见,我很赞成。在将来采用拉丁字母,你们赞成不赞成呀?我看,在广大群众里头,问题不大;在知识分子里头,有些问题。中国怎么能用外国字母呢?但是,看起来还是采用这种外国字母比较好。吴玉章同志在这方面说得很有理由。因为这种字母很少,只有二十几个,向一面写, 简单明了。我们汉字在这方面实在比不上。比不上就比不上,不要以为汉字那么好。”
“有几位教授跟我说,汉字是‘世界万国’最好的一种文字,改革不得。假使拉丁字母是中国人发明的,大概就没有问题了。问题就出在外国人发明,中国人学习。但是,外国人发明中国人学习的事情是早已有之的。例如阿拉伯数字,我们不是久已通用了吗?”
“拉丁字母出在罗马那个地方,为世界大多数国家所采用。我们用一下,是否就大有卖国的嫌疑呢?我看不见得。凡是外国好的东西,对我们有用的东西,我们就是要学,就是要统统拿过来,并且加以消化,变成自己的东西。”
“我们中国历史上,汉朝就是这么做的,唐朝也是这么做的。汉朝和唐朝,都是我国历史上很有名很强盛的朝代。他们不怕吸收外国的东西,有好的东西就欢迎。只要态度和方法正确,学习外国的好东西,对自己是大有好处的。”
《中国语文现代化百年纪事(1892—1995)》,第219页。)
感想:
1.要讲改革开放, 思想解放, 还得看毛主席
2.真正的民族自信:凡是外国好的东西,对我们有用的东西,我们就是要学,就是要统统拿过来,并且加以消化,变成自己的东西。
our curent social 語言場, much like conventional 熱力學: great break away from 热质说 , but.. old daddy, the yestoday's hero, old industry, with huge waste of everything..
social 語言場 has to go through 量子化, breakthrough, one way or another, and the cost of our current "social overhead" will be cut by how much?
--------------
"在古希腊的德谟克里特和伊壁鸠鲁以及古罗马的卢克莱修的著作中出现了“热是物质的”这种说法:“热把空气一起带来,没有热也就没有空气,空气和热混合在一起。”而我国古代人的“元气论”把热看成是一种“气”,它的集中表现是燃为火。所以《淮南子天文训》有“积阳之热气生火”的说法,东汉王充《论衡寒温篇》解释冷热也说是“气之所加”。我国古代人的观点类似西方的“热质说”。
-----------
我不喜欢计委的计划经济,那个根本不是经济民主化,无法纠错 [ PBS ] 于:2012-02-04 00:56:16 复:3657799
任何计划如果不存在纠错机制,就不是计划,而是长官命令,而长官命令违背现代社会的民主决策机制。
想着未来无比美好,计划经济一定可以实现,但是想想又未必
那种计划经济是没有实时反馈的控制回路,太粗糙,也没有平滑机制,容易产生自激振荡最后导致失控。
斯大林式的计委计划经济命令一旦下达就没有更改的可能,而中国古人都知道“将在外,君命有所不受。”
具体情况具体分析就是一种反馈机制,而摸着石头过河就是很粗糙的反馈机制了--只有触角和一步分析,不能看多几步。主要是数据库里的历史数据模型太少,也就是维纳所称的学习经验不够多--再次回到“没有理论的实践是盲目的实践”的描述。
信息时代的韩寒利用方舟子算法先行纠错,虽然还是假货,但是无懈可击
这个假货是韩仁均所为,的确无懈可击,但是非实名,所以从干扰源上下手,防止韩仁均参与。同时对两个信号源(韩寒和韩仁均)进行分别背靠背识别(我们在医药测试上称为双盲试验)而杜绝作弊。
中医药为什么无法成为科学也就是韩寒现象在这个领域内的表现,自己给自己做疗效鉴定,自己宣布妙手回春自己的病人,别人却无法重复。
中国的国粹们就用这个在过去欺君,现在骗民。
中国的学习了西方思路的理工科学生们,知道这样的骗法此路不通,于是干脆集体缴枪投降,表现为不创新,全盘照抄,美其名曰:反向工程或山寨。但劣根性还时不时地冒出来,我们经常看到“自主创新,70%国产”就是玩集便器之类基本国产化的把戏。
中国人在世界上落后的时间长了,感觉不好,想改变又不想下工夫,只好采用抄捷径,搞精神胜利法安慰自己。文科生玩中国国粹,不用参照物,搞八股组合排列自成系统;工科生则以拷贝成功为荣。
一句话,离太祖的”中国应该对人类有较大贡献“之要求相去甚远。
虽然通过IPV6我们知道HH是第一个说涨的,但是无法证明他是个噪声
知道源头就好办,然后用双盲对照法,重复法进行鉴别。对一个说谎的嫌疑犯,警方不用逼供信,只要请他把事情经过复述一遍又一遍,比如嫌犯说事情发生的次序是ABCD,那就让嫌犯从A到D描述一遍,然后从D到A再反向描述一遍,一般作假的人就不可能流畅复述前后一致成功。
韩寒不是一而再,再而三的出尔反尔不能复述自己"成功之作“的来龙去脉吗?韩寒的智商极差,不可能强化训练实施反侦讯手段,方舟子只要采用刑侦心理学上的重复叙述倒述方法,就可以看出韩寒在当面撒谎。
方舟子要是能够让韩寒上测谎器试验,那更好,小子极可能过不了关。因为我看到韩寒已经到法院告了方舟子,那么方舟子的辩护律师完全可以要求韩寒走一趟测谎器流程。
而第一批买股票的粉丝是赚了大钱的,谁又是愚民呢?
第一个赚了大钱是韩仁均,第一批是韩寒和那个后面的团队也赚了大钱,最后一批是愚民,就是韩粉那群,他们损失了了大钱,感情上还很受伤。
你给的例子3正是证明人类作为个体是非常盲目的,可以产生随机噪声,而在信息公开的条件下,个体互相影响是可视的,可比较的,可纠错的,最后经过学习(通信)的公众的观点将趋于合理的范围。所以太祖认为考试应该允许开卷,允许交头接耳,是个很好的方法。西方教学要学生形成小组就某个课题一起解题是个很好的教学方法,在以后实践中,人们不是单刀赴会解决日常工作问题的。
维纳认为人类的学习过程就是克服通信过程中的随机噪声,通过信噪比较,人类拾取信息,抛弃随机噪声,达到学习的目的。一个完美社会的学习就是社会成员在一视同仁的公开的条件下进行抵抗噪声的通信,这个情况我们称为公平。韩仁均韩寒父子背着广大考生作弊就不是一个公平的过程,是个黑箱操作,就是不平等(缺席居然拿头奖)。
而允许随机噪声的存在就是民主的表现,但随机噪声不能干扰社会成员的通信是由社会成员之间一致达成共同遵守的一种通信协议来完成,我们给予这种通信协议一个专门的称呼--法律。经过实践和逻辑证明的信噪比是判断这个协议或法律是否合理的唯一标准,美英的陪审员制度就是一种抽样迭代算法来确定这种信噪比,而全体社会成员一起制定信噪比就是公民公决了。
韩仁均韩寒知道有这个通信协议存在,但恶意导入噪声,所以这对父子产生的噪声不是随机噪声,因此必须受到协议的强制约束,即关闭其信号辐射源。对于随机噪声可以通过数据统计分析解出合理信噪比即可解决,对于恶意噪声只要关闭其噪声源即可。
你可以恶意导入噪声成功一次,但你不可能N次成功,因为你的噪声源最后会被定位而被消除。在信息源公开的条件下如果还有大批韩粉,那么我们可以知道这个社会是个相当大的精神病院了(即信噪比处理输出相当畸形而其判断阈值处于一个极不合理的状态)。
韩寒这个符号的信号源来自其父,因为韩寒没有独立人格,是其父的玩偶。韩寒现象就是愚昧和非实名结合的结果。
救救孩子。
别忘了后面还有实事求是,小心求证嘛