西西河

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
全看分页树展 · 主题 跟帖
家园 文字信息熵是个非常直观的概念

文字信息熵是个非常直观的概念,其核心就是猜出下一个字符需要回答几个Yes or no的问题。为了有效率,问的时候会先问常用字。问题一层一层排列出来就是一个决策树。

对于一个只有0和1的符号体系,只需一次问答,信息熵就是1。使用英文符号体系,决定一个字母平均需要回答4.05个yes or no的问题,信息熵是4.05。对于汉语符号体系,决定一个汉字平均需要回答9.65个yes or no的问题,信息熵是9.65。

-----------------------------------------------------------

信息熵大的语言,决策分支就多,决策树就大。这导致一些问题,比如:

1.决策次数增加,决策错误的可能性也增加,导致表达不准确。

2.交流的时候,把更多的精力放在语言本身,而不是语言背后的逻辑。

3.训练决策树的代价太大。小孩子迟迟无法开始阅读和写作。

4.训练出某种简化的决策树。好处是容易学,代价是表达的精度下降。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河