西西河

主题:【原创】ID故事 (引子) -- 夏翁

共:💬667 🌺683 🌵1
全看分页树展 · 主题 跟帖
家园 【原创】ID故事 (三)

【本来打算ID故事写完,老夏正好跳崖,没想到人刚到一品,就成了老鼠过街人人喊打,人算不如天算哪!不过品秩降了,人也进了Hall of Fame了,还是谢谢要大家。在家靠父母,出门靠朋友。有钱帮个花场,没钱帮个气场。敲起锣打起鼓,老夏ID故事继续走。越写越长越罗嗦,也违背要自我检查的原意,只有硬着头皮上了。】

当然中文输入对于大家,即便是那时候,也不是太陌生的东西,我出国前就曾用过WordStar(其英文版大概是WordPerfect的前身)打文章,后来也用过澳洲倪红波先生的南极星编辑软件(DOS版)。

但问题是这些软件并不能帮助我们解决网上读写中文的问题!为什么一个中文问题会如此让人挠头呢?

原因出在8bits还是7bits上,网上的信息传递用的是7bit,也就是说,一个字节8bits只有7位是有效的,第8位我想是作为奇偶校验位了,所以,只有ASCII码的前128(2的7次方)个字符可以通过网上传递,只有128个!

而大陆的国标码定义每个汉字用两个字节表示,一级国标汉字三千多个,二级国标汉字也有三千出头,将近七千个汉字字符!

什么是国标?只要试着本网页上方点一下你自己的名字(ID),URL是什么?

www.cchere.net/user/%CF%C4%CE%CC

或者有人就直接能看的到

www.cchere.net/user/夏翁

我想说的是:CFC4就是“夏”字的国标码;CECC就是“翁”字的国标码。这里用的是十六进制,0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F。其中0-7的第8个bit是0,8-F的第8个bit是1,而我们可以看出所有国标码的双字节都含有第8个bit为1的情况。

因此一种新的中文编码方式解决了这个问题,这就是zWDOS。原理很简单,以前也没想过,现在试验了一下,可以肯定其原理是把国标码两个字节第8位干脆去掉,然后在汉字行的开头加上zW,这样,当zW出现在行首的时候,整个行被当作汉字来处理。但这一行中的英文字母就不能显示了,因此,一种在zW基础之上的编码HZ被用得更多,HZ跟zW一样,只是把汉字信息头上加一个~{,尾巴上加一个~},现在的IE(其它浏览器也是一样)里就还有HZ编码支持──Encoding:Chinese Simplified (HZ)。

来做个试验,你马上就会懂了:

把CFC4夏字和CECC翁的四个字节第8位都去掉,于是得到4F44和4E4C,4F:O;44:D;4E:N;4C:L。好了,写一个text文件,一行字~{ODNL~},存成whatever.html,然后用IE去读,告诉我你看见老夫名字没有?

因此,当你上传中文的时候,zWDOS把原本8bit的中文信息转成7bit,网上可以顺利的传送,当你从网上读下这个7bit信息的时候,zWDOS自动识别zW和~{~}标志,并把第8bit置1。用这种办法,大家便可以在网上顺利地交流中文了!

让我们记住一个伟大的名字,中文网的先驱、zWDOS的发明者──魏亚桂!


本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河