第三百四十二章 香农的信息熵 (10 / 10) 首页

字体:      护眼 关灯

上一章 目录 下一章

第三百四十二章 香农的信息熵 (10 / 10)
        这个数字(logT)/n就等于:-P(1)logP(1)-P(2)logP(2)-…-P(M)logP(M).

        这个数字,就是熵。

        从熵的表达式看,熵是通过一个概率分布函数P(x)来定义的。因为概率分布函数P(x)都对应于它所描写的随机变量X,所以俺们也可以认为熵是对随机变量X的某种特性的度量,而把它记作H(X)。从压缩的角度讲,熵值H(X)是对产生随机变量X的信息源编码所需要的平均最小比特数,或随机变量X中固有的平均信息量。

        如果随机变量X是在S={1,2,…,M}里取值,那么可以证明,熵值H(X)的取值必定在0和logM之间。当随机变量X在S上均匀分布的时候,H(X)取最大值logM;当X以百分之百的概率取S中的某个数值的时候,H(X)取最小值0。前者对应于“不确定性”最大的X,而后者对应于“不确定性”最小的(即完全可以确定的)X。所以,也可以把熵值H(X)理解为对随机变量X的“不确定性“(或“不可预测性”)的度量。

        因此,随机变量所包含的“信息量”和它的“不确定性”其实是同一个概念。一个随机变量越难以确定,它所包含的信息量越多。这种认识对初次接触熵的人来说或许不够自然。但仔细体会一下,确实是有道理的。如果俺想告诉你的事你很容易猜到,或者说你不用问几个问题就能知道,那俺要说的话对你来说就没多少信息量。

        在熵的定义里-logP(a)又是什么物理意义呢?当然这个数字可以理解为a编码所需要的比特数(在前面例子里,我们能看到以1/8概率出现的事件,需要用3个比特来编码)。换一个角度理解,-logP(a)可以理解为a的“惊奇度”。一个出现概率极低的事件a,比如世界末日,它一旦出现就会令人非常惊奇,所以对应的-logP(a)就会很大;而如果a出现的概率很大,它的出现就不会太令人吃惊,所以对应的-logP(a)就会很小。因此,熵值H(X)也可以理解为随机变量X的“平均惊奇度”。

        用不确定性,信息量,或平均惊奇度来理解熵,都只是给它赋予一个直觉的解释。平均最小编码长度才是对熵的数学理解。但这种理解并不能体现出大数定理在熵的定义里所起的决定性作用以及“二十个问题”游戏必须攒着玩才能实现最短问题数等于熵值的深刻认识。在大数定理的情怀下,熵值H(X)还有另一个数学解释:H(X)是典型序列的总数随序列长度的“翻倍速率”。看,长度为n的典型序列总数T差不多是2^(nH(X));也就是说,每当序列长度n增加1,T就增大2^(H(X))倍,或者说,翻倍翻了H(X)次。所以把熵理解为典型序列总数的翻倍速率才能真正体现熵的数学本质。当然,这样的理解就离韩剧更加遥远了。

        熵,或英文里的entropy,本来源于物理中的热力学,用来描写系统的“混乱度”。香农在定义信息熵的时候借用了这个词。虽然俺经常夜观星象,也能在夜空没有雾霾的时候认出北斗星,但对宇宙、相对论,或是热力学,都一窍不通。所以俺就不试图解释物理熵和信息熵的联系了。

        但在通信的范畴,熵是人类第一次对信息有了数学的认识。人类刚刚开始研究数字通信的时候基本就是瞎子摸象,直到1948年香农在贝尔实验室发表了那篇著名的文章,“通信的数学理论”。倚天剑一出,天下皆惊。香农一针见血地指出,通信的问题可以分解成两个的问题,即信源编码和信道编码。信源编码的目的是尽可能高效的表示信息源,即数据压缩;信道编码的目的则是尽可能高效的让数据可靠无误地通过信道。在他1948年的文章里,香农证明了信源编码的极限是信源的熵,而信道编码的极限则是个叫信道容量的东东,标注着信道可以支持的最大通信速率。(信道容量的概念是在熵的基础上的对信息论的进一步发展,故事更长,更精彩,不过俺还是不讲了吧。)香农说,只有当信源的熵低于信道的容量的时候,可靠的通信才可能实现;而且只要在这个条件下,可靠的通信就一定可以实现!香农的证明是存在性证明,就是说,他告诉俺们:反正这事儿一定可以实现,至于怎么实现,你们自己想办法吧。

        信源编码的问题很快被香农的追随者和逐步解决。基于算术编码(arithmeticg)和LZ编码(Lampel-Zivg)的信源编码方法在上世纪七八十年代已经日渐成熟,实现了香农预测的压缩极限并在实践中被广泛采纳。而香农预测的信道编码的极限,信道容量,却花费了人类半个世纪挣扎。业外人士未必了解,对信道编码的研究结晶了人类最高的智慧和前赴后继的努力。然而香农预测的信道容量直到上世纪九十年代中叶才终于被实现。今天我们的手机里也终于承载了香农在1948年的预言!

        熵的提出是信息论起点,也是人类对信息认知的开始,而香农在他1948年文章里提出的数学工具正是信息论的骨架。在我们今天生活的信息时代,香农和信息论存在于我们的手机,我们的电脑,我们的电视,我们的蓝光播放器,我们的i,我们的facebook,我们的韩剧......

        大约七十年前,当人们还在黑暗中摸索数字通信的时候,香农说,要有熵。于是,就开启了信息时代。

        【本章阅读完毕,更多请搜索墨缘文学网;http://wap.mywenxue.org 阅读更多精彩小说】

更多完整内容阅读登陆

《墨缘文学网,https://wap.mywenxue.org》
加入书签我的书架


上一章 目录 下一章