主题:中国文明只有63岁——《大目标》后记 修正技术错误 -- 马前卒
共:💬216 🌺1256 🌵22
熵值越高的语言,用其进行通信时发生错误的可能越大(容错率低,冗余度低)
通信错误率是信道的特征,和信源没有任何关系。
而信息论的核心问题,就是把信源编码到(相同码字长度内)最高的熵值。
汉字的熵比字母高得多,这很正确,虽然你的数据可能有问题。但是,依据信息论,(如果二者是可比较的话)汉字是更优秀的信源编码方案。
不过,你给的数据本身可能有问题,因为英文字母的熵不可能有4之多(记得根据一些理论估计,极限应当在1.3左右,这是压缩软件可达到的最大理论极限),而英文单词的熵又显然要比4高很多,如果你用的是2为底的对数的话。另外,汉字的熵和英文字母或者词的熵是不可比较的,虽然二者同为熵,虽然物理上熵是无量纲的。
- 相关回复 上下关系8
压缩 9 层
🙂嘻嘻嘻嘻,到了量子计算里边,就是0和1的任意叠加态。 jent 字0 2012-09-27 03:28:31
🙂原理上应该很容易 5 bxbird 字659 2012-08-31 02:14:13
🙂原理上证明汉字编码效率低 PBS 字2230 2012-09-26 23:51:31
🙂你真的看过信息论与通信原理?
🙂花!能不能给咱科普一下? 桥上 字0 2012-09-27 10:53:27
🙂与字母对应的是汉字笔画而不是汉字 2 陈王奋起 字20 2012-09-27 08:08:28
🙂看来你读汉字是从笔画上下手的 PBS 字243 2012-09-27 13:28:28
🙂看来你读英语是从字母下手的 6 黑传说 字285 2012-10-01 07:09:26