主题:【原创】和本嘉明兄商榷关于汉字拼音化 -- 羽羊
本嘉明兄雄文,确实让羽羊有畅快淋漓的感觉,而文中关于汉语拼音化一节
目前的汉语拼音,必须按英文发音习惯,改掉一些不足:
1)韵母不要音标符号。
2)XIU,QIONG 这类发音,必须改为:X = SH;Q = CHhttp://www.ccthere.com/article/1940086.html
3)前后鼻音,四声调。
4)一音多字(多意),这个最麻烦,只有靠词组和上下文解决。
5)常用词,要约定俗成地变通。
比如第五条,‘东西’的变通拼音,可以是‘DONETHING’,老外就很容易理解这个词的用法,这类似于电话号码的‘发音联想记忆法’。而‘东溪’之类非常用词,仍可用改良后标准拼音‘DONGTHY’拼写。http://www.ccthere.com/article/1940086.html
希望中国凭国家统一贯彻之力,把这件事赶紧做起来。二十年后,真如我所愿,全球60亿人口,能有75%凭拼音说一口流利中文,哪怕一个大字(方块字)不识。
读罢之后,羽羊作为一个曾经学过两天中文的不肖学生,有几句话如鲠在喉,因本嘉明兄原帖发在经管版,谈汉语拼音化似有不妥,故在此处发文,于本嘉明兄商榷。
关于汉语的拼音化,本兄此说草率了,我宁愿相信本兄限于篇幅没有办法详细描述之。否则按文中所述汉语拼音化的方案,失之于肤浅了。
关于汉语拼音化,并非仅限于学界争鸣,而是曾经真实的进行过。
文字改革委员会(86年改组为语言文字工作委员会,响当当的简称国家语委,中文本科的学生应该对这个名字都耳熟能详),其工作中心顾名思义就是对汉语的改革,简化字,包含已经废止的二简字,都跟这个委员会有关系,汉语拼音化的方案吴玉章49年就跟太祖提过,文字改革委员会也对拼音化进行了相关工作,从最早的笔画拼音方案被太祖否定到最后定稿(现在是法定的了)的汉语拼音方案并且最终推行,也是一个非常复杂的过程了。其间争论反复难以一言蔽之。
汉语拼音化究其缘起,也不是简单的一两个原因,繁复难写说,信息处理难题说,甚至还有今天说起来哭笑不得的阶级说都有过。
关于拼音化的推行,tg也并非仅仅停留在纸面,对外地名、人名等专有名词译文汉语拼音化、简化字、书面文章横排,在学校推行,还有80年代推行的汉语拼音直呼(84年左右上小学的河友应该经历过,例如tie,不再教授拼读为特意也——铁,而是直接读出铁音)这些都是推行拼音化的一个步骤,无可否认,这些方针步骤,对于现在汉语言的推广普及都起到了无可辩驳的积极作用(二简字除外),同时更无可否认,这些积极作用都是无心插柳,距离最初的汉语彻底拼音化的目标反倒渐行渐远了。
语言文字是属于人民群众的,也许强扭的瓜最终不甜,这些应该是在语言文字方面指点江山的专家学者始料未及的,比如“正龙拍虎”,从其典故、寓意、音韵都满足了成语的条件,唯一缺少的是时间的考验,假以时日,真的进入成语词典也说不定。
最后,抛开汉语拼音化这个大题目不说,汉语拼音本身,也是一个精彩的故事,从古人的直读、反切,到“中国切音新字”(十九世纪末,以南京语音为蓝本),到笔画型拼音的“官话合成字母”,再到“江苏新字母”
“中国音标字书”和拉丁中国字,期间还有民国的注音符号,最终到现在正体注音和汉语拼音方案,其间笔画式、拉丁字母式、斯拉夫字母式、甚至还有速记、图案、数字式,你方唱罢我登场。直读反切经年已远不谈,自成方案的汉字注音方案肇始,到今天已逾百年,百年光阴阿,现行的汉语拼音方案颁行50年而终有所成,公元两千零九年元旦,汉语注音方法终于将统一为汉语拼音,五千年煌煌文化,自鬼神哭仓颉造字,后人以六书成汉字伟业,又有虽方言割据,而中华文化凭汉字表意为本传承不绝,而今终于有了一个统一的注音方案,我们见证了中华语言文字的一个大时代!
本帖一共被 1 帖 引用 (帖内工具实现)
不赞成拼音化。语言的扩张力取决于国家的实力。中国强大的时候,周边地区用汉字表音也好,表意也好,反正这就是他们的“字母”。而现在,拉丁化的汉语拼音有人还觉得不够,还要按英文发音习惯改。要果真如此,为什么我不直接用英文?
就是咱河里这些学过十几、几十年汉字的河鱼,也肯定每个人都会有或多或少不识识的汉字(在二级字库范围内,六千多个汉字),如果完全拼音化,只要认全字母,学会拼法就不会有不认识的字了。
就是现在这么发达的计算机,输入字母只要认识就会输,不需要再去学、背那么多的编码。我们输入汉字经常会碰到这么一种情况,输入人名或地名时会碰上某个字怎么也打不出来,字母化就不会有这种现象。
你的“为什么我不直接用英文”是情绪化的说法,大部分中国人都不象你会说英语,而汉语是从小就会说的。
推行汉语拼音最大了障碍除了人的习惯以外,主要有以下几个:各地口音不同,方块字同音异形异意字多,四声。
口音不同可以通过推广普通话解决,这现在实际上也在做;
方块字同音异形异意字可以用拼音只组词,大部分词都用两个以上的字(指原方块字)组成,这样岐意就会很少,再剩下有岐意的词可以换用另一个同意词或用上下文区别,有人试验过,用现在的方块汉字,每个同音异形异意字都统一用一个字代替来打印出人民日报上的文章,看文章的人大多能正确理解词意(结合上下文)。甚至有人提议过用此方法(这样只剩下几十还是一百多汉字,当然组成词就多了)印发另一版本的人民日报的,借以到拼音化的过渡;我有个朋友有段时间在国外,没有汉字输入,给我发Email只好用汉语拼音(俺看不懂英文),只是读得慢一点,意思都能读懂。
最麻烦的是四声,到现在也没法在26个字母中解决,这可能是与人的习惯并列的两个最大障碍。
本帖一共被 1 帖 引用 (帖内工具实现)
不管怎么说,表音字母比表意方块字好学的多,也好写得多。就是咱河里这些学过十几、几十年汉字的河鱼,也肯定每个人都会有或多或少不识识的汉字(在二级字库范围内,六千多个汉字),如果完全拼音化,只要认全字母,学会拼法就不会有不认识的字了。
应该是“学会拼法就不会有不会读的字了”,这样的说法应该比较严谨。至于会读之后知道这个字/词什么意思,应该也是“认识”的一个组成部分,就知音知意而言,表音和表意文字没有级别上的显著差异,各有优劣。以英汉为例,英文不符合读音规则的单词,仍然需要辅以音标,汉语则需要辅以汉语拼音,就知意而言,英文和汉语都可以从一些构词法上面推出大概的意思。
所以,当代表意文字和表音文字不能仅仅从字面上理解为表意文字不表音和表音文字不表意,语言文字发展到今天,已经不能简单用表什么涵盖全部了。
如果把眼光放远一点,看这两种文字的发展,我们很容易发现,表意的汉语进行表音的进化很容易,远有六书之形声字,今有汉语拼音方案,源流长远,而表音文字进行表意补充则难度很大了,一个维度的文字和两个维度的文字比较,从信息量的承载潜力上说,现有的以一维拼写为主的表音文字是很难进行表意化演进的。
这种拼音化付出的代价实在是太大了,用人民日报举例恰恰说明了拼音化的局限,因为您提到了词的使用和上下文。双音化是汉语发展的一个趋势,然而语言文字最为迷人的就是趋势仅能总结而不能预测,不好说哪天咱们又开始像古人那样惜字如金了,而您所言的这种拼音化在当代白话文的情况下是可以说的过去的,而且,太祖当年甚至比您更狂热的推进拼音化,还提出过拼音化毛泽东选集,后来也不了了之了,估计老人家想明白了,著书立传目的何在?因为这恰恰触及了一个表音文字的劣势——语言的变迁导致文字的割裂,古今英语的巨大差异就是例证之一,如果仅看学习难度,古汉语的学习难度几乎可以忽略不计了,这在文化的传承上是有巨大的积极意义的。
当然,无论怎么说,无论是否拼音化,汉语拼音的地位是无论怎么褒奖都不过分的,也许我们这一代开始,能够传承给后代的信息量会史无前例的充实,举一例而言
硕鼠硕鼠,无食我黍!三岁贯女,莫我肯顾。
逝将去女,适彼乐土。乐土乐土,爰得我所。
硕鼠硕鼠,无食我麦!三岁贯女,莫我肯德。
逝将去女,适彼乐国。乐国乐国,爰得我直。
硕鼠硕鼠,无食我苗!三岁贯女,莫我肯劳。
逝将去女,适彼乐郊。乐郊乐郊,谁之永号。
这首诗著名吧,诗经,魏风,民歌都是老百姓唱和的,也就是说,当时,这个就是大白话了,可是我们读的时候,看第三行,一个奇怪的情况出现了——韵脚不对了,全诗仅此一句不押韵的,非常不合道理,这事儿羽羊当初很费琢磨,先生含笑曰:豫东方言读之。茅塞顿开。数千年前,百姓放歌,情景瞬间犹在眼前,这个就是意至音不至的鲜活例子了。而今有了汉语拼音,我们的子孙,则不光能知吾辈所想,更能知吾辈所语了,岂不大善。
国内识字的人去医院填表,大概总还知道啥病基本上在啥部位;
前几天看河友的帖子,国外上医院填单子,看到一个单词就头晕,无他,病名和器官名称根本无对应,每个病都是贼长的字母组合
你认识字母,知道发音能怎样?和鹦鹉差不多
这种文化输出的事,顺其自然便是,削足适履使不得
三弄两弄邯郸学步了都
但是这样一来,其实并不是消除了语言学习中的困难,而是把它转移了。在拼音化的语言中,你可以相对容易地听写单词,或是把单词念出来。但这并不意味着你自动理解了这个单词。也就是说,存在一大批“能读会写”的文盲。而这种现象在汉语中就比较罕见。因为一分辛劳一分收获,学习汉字时所付出的汗水在这里获得回报。
有人常常将汉字和字母做对比。从信息学的角度,这是不公平的。因为汉字所包涵的信息量远远大于字母。真正应该拿来和汉字做对比的应该是单词。掌握六千多汉字基本覆盖了全部的日常应用;要是只掌握六千英文单词的活,嘿嘿,恭喜您脱贫
中文输入慢于拼音文字实际上是来自于英文的主导话语权。每台计算机都配有键盘,每个人都不得不学习打字。在信息设备只有手写笔识别的场合(比如掌上电脑),输入中文的速度其实并不慢于拼音文字。qwert也是要死记硬背的,只不过这部分劳动经常被有意或无意地忽略掉了。
大量方块字其实能够提供比拼音文字更高的信息处理速度。阅读正常汉字会远远快于阅读同音字或汉语拼音替代物------这一点您也是深有体会的。汉语以字为单位,是定长的,就像计算机中的RISC;拼音文字以词为单位,是变长的,就像计算机中的CISC。所以,要考虑日后进一步提高速度的潜力的话,也是汉语占优。
这在表音和表意字都一样,表意字稍好点,有部分词意就是字的组合。但汉文同样有大量的与组成的字意不相干的词,如具没见过同样认识字不认识词。
但我们讨论这个问题不能脱离我们这个中文环境,咱们从小学说话就学了大量的中文词,中国人学语文的第一步只不过是让你把会说的话写出来,而不是象学外文一样连词意都要学。
就象俺,26个字母都认识,组在一起就不认识了。
还有个字库问题,虽然现在计算机的内存对保存中文字库不算问题,但各种字体还是占了相当大的存储器,这对一些简单的应用系统更是个困难。象用单片机的系统如果要显示汉字,显示汉字的内存和显示器就占了成本的相当大部分。现在基本上人人都有的手机,输入汉字就要比字母困难得多。
计算机的开发中国不比外国人晚很多,为什么所有的编程语言全部是外国人创造的使用字母的,这与汉字的数量、复杂性有很大关系。
关于词的积累,您提到了一个关键,您26个字母都认识,合在一起一个都不认识,可是您认识了3500个常用字(其中2500个常用字和1000个次常用字,国家语委的说法,其实日常应用恐怕还远远没有这么多)之后,读报纸不会有问题,羽羊的小侄子3年级,认不了3500个字,已经可以看报纸了,羽羊学英文,大学的时候还捧着朗文猜times(当然这个和天资也有关系),这个如果往深了说,跟汉语的发展又有关系了,汉语本来就是单字表意成词的,多音化是个近代发展的趋势而已,回到汉字拼音化这个论题上面来,您提到了这个例子恰恰说明,汉字在学习方面,没有表音化的必要。因为诚如沉宝兄所言,一个困难转移到另外一个困难,何必呢?
第二您提到了汉字的处理方面,羽羊现在干的就是it,恰恰在这方面有点发言权,您提到的汉字输入和显示,远远没有您说的那样困难,也许国内的宣传导致的?汉卡和汉语平台外挂时代,确实有其历史地位,但并不具备独创性,无非读取字库数据,在屏幕上面打点而已,和英文没什么原理上的区别,至于现在的矢量技术,两方面更是没有质的差异了。
这个说法有点拉郎配的意思了,编程语言就是个简单到极致,精准到极致的符号系统,就算是使用英文,也没用多少单词,c才30个关键字而已,说穿了,高级语言,您的code就是个代号而已,用汉语还是英语,其原因并非和复杂性以及汉语英语的数量有什么关系,顺便说说,code,中文有非常传神的翻译,代码,信达雅兼备。
题外话关于汉语编程,国内确实有人实现过,但是其必要性和迫切性以及和英文编程的比较,又得是一篇长文,而且不是羽羊这等人说的清楚的,不过羽羊总觉得,应该不能成为您的论据,您说呢?
关于 letter word root,中文的翻译也非常牛,字母,字(现在译为单词,最早译为“字”),词根,最早翻译这三个word的人,羽羊望天一拜,这才是学贯东西的大学问家阿!
字母、字、词根,看着这五个字,只要略微琢磨一下,作为中国人,恐怕您也体会到汉字之美了吧。
您说的在理,汉字词的多音化是近代开始的一种趋势,而从缘起来看,汉字中名词是单字成词的,而汉字和字母相比,恰恰忽略了汉字单字作为词的固有属性,例如龙,即为单字词,芯,也为单字词,二者均具备其固有含义,龙芯一词,观者也可望文生义,当然,汉字的构词法是繁复多样的,此例或许以偏概全,但是无论构词法如何多样,也仅仅是规则而已,而汉字单字则构成了现代汉语这样一种类似自解译的符号系统(说白了就是望文生义)。
从语言学的角度来看,语言是以词汇为建筑材料的,而汉语自解译的特点,对应拼音文字而言,letter和word之间是无法形成这种自解译关系的,表音文字当中,和word形成这种自解译关系的是词根,而常用词根的数量和汉字常用字的数量相比,恐怕要大得多,这样就决定了掌握语言基本构件——词汇——的数量要求上,远远比字母构词的拼音文字优越,这恐怕也是汉语难入门,但入门之后,掌握用于交流就不难了,而如英语这样的表音文字,学会拼读不难,用于交流,真的就是6000词汇刚脱贫了。
至于汉字显示,最低分辨率的也得16X16,英文(拼音字母)8X8就行了,这就差了4倍,再加上英文字符不超过128个,一级汉字3755个,二级汉字3008个,相差52倍。
就拿16X16点阵的字库来说(矢量字库数据量更大,只适用于高分辨率的),两级汉字就要200多K字节,如果用常用的51系列单片机64k连一级汉字都不够。
就说“大”屏幕显字屏,显汉字至少要比字母多一倍的点阵(假设很长)
你学英文不如小侄子学汉文是因为汉文是你们的母语,讨论这个不能脱离这个环境,小侄子3年级汉语至少已经学了8年了,而且是在汉语环境中,从小开始可以说随时随地都在学。你学英文有这个条件吗?
最简单地说,只要你会说普通话m汉字拼音化后你学了个新词知道说马上就知道怎么写,而方块字学了词你还得学怎么写。最常见的是问姓名:“你姓zhang?弓长张还是立早章?”。
后面那个也说不上是拉郎配,这正说明了汉字在计算机上的应用比字母困难不少,汉字的计算机编码比数量少的字母困难,所以汉字编码要出现的迟。
再翻回到以前不用计算机的时候,发电报,字母包括大部分标点符号只要用六键直接完成,一个汉字要四键一个数字,再四个数字一个汉字,多费一道翻译,所以中国电信局都有专门的译电员从数字译成汉字(当时发电报一个字三分,译电另加半分),要经过相当的培训,字母一步译成很容易。
以前的汉字打字机,一个大盘几千个铅字在上面,不经相当的培训上去几分钟都找不到所要的字。所以那时的汉字打字机都有专业打字员,字母打字机可以说识字的人都能用,只是速度有所差别。但这个熟练和不熟练的差别要比用汉字打字机小得多。
联想能力都超级丰富
而且,个别不认识的字,查一下字典也不费事。
再说,学习的过程不是也挺愉快得么?
的字库略小一点。另外,现行的标准是 GB18030-2005 。这个标准的要求是让近两万个汉字都可以显示。字库全部不过是十几兆而已。
现在的汉字处理方法效率是很低,不过现在的技术,已经不是很在乎这一点点的存储空间与显示算法了。输入上,尽管手写板还没有成为标配,成本也不像键盘这么低,但是手写板的确让计算机输入汉字的学习成本降至零了,对于一般人来说,要不要学习更快捷的输入方式只是一个对工作效率的要求而已。语音输入还在发展,相信过不了多久也会成为一种很可靠的输入方法。
在硬件快速发展的今天,你提到的很多问题已经被解决的非常彻底,绝大多数人都已经不再关注汉字编码问题也可以说明这一点。没多少人在意那一点性能上的损失了(当然还是有一部分人有一点在意,但我想假如网速再快一点……)。随着信息化进程加快,对汉字的算是只能是越来越方便。