主题:【原创】【整理】滑向混乱的美国 -- 联储主席
如果字频是一样的话,那么五千字是ln(5000)=12.29bit
26个英语字母是ln(26)=4.70bit
但由于字频有高有低,加权之后会分别比12.29和4.70小。
信息熵其实就是信息量,就是说单个汉字包含的信息比单个字母多。例如发推,中文/朝鲜文/日文140个字能说一段话,欧洲语言140个字母往往只能说一句话;这是因为中日朝文都有数千个常用字,单个字信息量就大了。
http://blog.livedoor.jp/nabokov7/archives/1498403.html
「Twitterの140文字は他言語では何文字くらいか」(140字的英语推文用其他语言需要多少字符)
看看这个,可以发现,信息熵(信息量)大的文字系统,同样的推文常需要更少的字数。实际上汉化galgame的同学们也能发现,日文30KB的文本,翻译成汉语就20KB了,如果是英化组,同一个文本或许膨胀到45KB。这和信息熵中文>日文>英文是对应的。如果把汉语像越南语那样拼音化了的话,拼音化汉语的信息熵应该是和英语差不多的,140个字母的拼音化汉语会像英语那样只够说一句话。
信息量之所以称之为信息熵,可能是因为它和物理化学中的熵的推出公式具有相同的形式。它在包括输入法设计的许多领域都有应用,但是把信息熵和物理化学里面的熵混为一谈进而论证汉字不好什么的,和「电压和水压都是压力,中国人现在压力都很大所以一切都是体制问题」有異曲同工之妙。
http://googlechinablog.blogspot.com/2006/04/4_1731.html
信息量
http://googlechinablog.blogspot.com/2007/12/blog-post_7986.html
信息量和输入法编码的极限
http://googlechinablog.blogspot.com/2006/05/blog-post_2403.html
信息量和上下文预测
- 相关回复 上下关系8
压缩 5 层
🙂花!胡说两句 10 桥上 字904 2013-02-13 08:32:25
🙂讨论语言的严密性应该先加强下自己的思维严密性 71 HiJohns 字1261 2013-02-12 23:11:29
🙂看了你的帖子,我怎么反而觉得汉语对思维的影响是我们的优势 3 fw 字560 2013-02-04 22:12:09
🙂信息熵不是熵,就像广义力不是力
🙂你的意思是人类的视觉听觉触觉味觉嗅觉受语言影响? PBS 字1375 2013-01-29 22:28:47
🙂菲律宾笑而不语 3 我爱老婆 字234 2013-02-14 06:31:17
🙂最近同一位西西河友讨论了文字和绘画的关系 PBS 字144 2013-02-14 16:36:54
🙂创新有什么用? 1 zero9999 字222 2013-01-27 18:53:51