第三百四十二章香农的信息熵 (6 / 10)_数学大帝

第三百四十二章香农的信息熵 (6 / 10)
        问题3:根据俺的答案，你现在可以确定这个神秘数字只有两种选择，再把它们一个放左边，一个放右边。你再问：你想的数是不是在左边啊？

        如此问完三个问题，你一定知道了俺的神秘数字。相信你的直觉也应该告诉你，这就是最优问法！那么在这个例子里，所需的最少问题个数就是3。从咱们用每个问题把猜测空间一切两半的问法，同学们应该也已经认识到，这里得出的最少问题数3正是因为8=2^3，或者说，2=log8.（本文中所有的对数操作均以2为底数）。

        在这个例子中有个现象也值得注意一下：不管俺心里想的是个什么数字，使用二分法所需的问题数字都是3，一个完全确定，毫无随机性的数字。

        这个特例显然可以推广：如果神秘数字X的概率分布函数是在2^K种可能性上的均匀分布，那么“二十个问题”游戏的最优策略可以通过二分法实现；在这种策略下，不论神秘数字是什么，问出它所需要的问题数都是K，因此所需要的平均问题数也是K。同学们请用红笔圈下这个结论（小心别把手机触摸屏划坏了），咱么晚点要用到这个结论。

        当然，这个二分法只适合于这样的特例，当神秘数字的可能性总数不是2的多少次方的时候，或者当神秘数字的分布不均匀的时候，这种问法显然不是最优的。这个问题任意形式的最优解法曾让一个叫大卫·霍夫曼（DavidHuffman）的年轻学生在1951年一夜成名。不过，那已经是在香农提出信息论三年之后了。

        在香农独特的视角里，这个问题并不至关重要。在俺的想象中，当香农看到满屋子小朋友们叽叽喳喳地玩这个游戏的时候，他笑了笑，说：你们慢慢玩吧。然后他点起一支烟，凝视着窗外的远方。在落霞与孤鹜齐飞的秋色里，他看到了这个游戏的另一种设计。

        既然用L(X)的均值定义所需要问题的个数依赖于把这“二十个问题”游戏玩很多次，那么考虑一下这个游戏的一个变种，就是把这很多次游戏攒起来一起玩：俺拿出一张很长很长的纸条，然后随机想n个相互独立的神秘数字，X1，X2，…，Xn（每个数字的分布都是同一个定义在S={1，2，…，M}上的概率分布函数，P(x)）。俺把这些数字一个一个地写到纸条上。这里n很大很大，所以纸条很长很长。然后你再来问俺“是不是”台或一百台电脑来。你问俺的问题要是计算太复杂，俺也可以去搬电脑来算。总之，咱们不用管计算有多复杂，俺俩都有无限的计算能力。在这个攒着玩的“二十个问题”游戏中，怎样的问问题策略才最优呢？最优的策略所需要的平均问题数目又是多少呢？

        暂且先不讨论这个问题的答案，咱们先审视一下这个新的游戏设计的应用意义吧。

        想象一下，俺写在纸条上的序列其实是俺刚写好的长篇（俺写下的每一个数其实对应于新华字典里的一个字），又或者俺写在纸条上的序列其实对应于俺长期夜观星象的结果，记录了不为人知的宇宙奥秘（俺写的每个数字都是对观测到的宇宙状态的描述）。在你问俺问题的时候，俺的回答将是一个长长的由Yes/No组成的序列。如果把Yes记作1，No记作0，俺的回答其实就是一个0/1组成的序列。

        一个可以取0/1两个值的变量，或者一个可以储存0/1两种不同状态的存储单元，就是人们常说的比特（bit）。所以俺的回答其实就是一个比特序列。你希望用最少的问题就等同于要求这个比特序列最短，或者说要求用最少的比特数表示俺纸条上的内容。这个问题其实就是通信中的数据压缩问题！

        数据压缩，又叫“信源编码”，大约是干这样一件事。假设有个信息源，就是一个能不停往外蹦信息的东西，比如一直在想神秘数字的俺，夜观星象的俺，写的俺，等等等等。信息源产生的信息从数学上说就是一个随机变量序列（更有文化的说法叫随机过程）。这个随机变量序列可以有很多种形式，最简单形式就是其中的随机变量都相互独立而且服从相同的分布。对这个信息源进行数据压缩包括了两个环节，编码和解码。编码就是把从信息源蹦出来的随机序列表示成比特序列，而且越短越好；解码就是从比特序列中还原出信息源蹦出来的随机序列。数据压缩可以大幅度降低数据存储和通讯需要的资源，已经是现代通信技术的一个重要组成部分。

        现在回到“二十个问题”游戏。如果这个游戏一个一个分开玩，其实就是在数据压缩的时候，对信息源里蹦出的每个随机变量单独做压缩。如果这个游戏攒n个一起玩，其实就是对随机序列中的n个随机变量同时进行压缩。显然，对每个随机变量单独进行压缩一定不会比对整个随机序列同时做压缩效率更高（这里的效率是用平均每个随机变量压缩后的比特数来衡量的，比特数越低，效率越高）。这里的道理是这样的：比如俺俩攒n个“二十个问题”游戏一起玩，但你设计问题的时候，每个问题只是针对序列中的一个随机变量，而不是针对整个序列。这样的问问题策略显然等同于把每个游戏分开玩。也就是说，这个游戏一个一个分别玩可以认为是攒起来一起玩的一种特例。因而分别玩能达到的效率，攒起来玩也可以达到。因为同样的道理，如果这个游戏攒2n个一起玩，其效率也一定不比攒n个一起玩低。也就是说，为了提高效率，n应该越大越好。

        那么攒起来玩的效率到底最高可以达到多少呢？或者说，对一个给定的信息源，平均每个蹦出来的随机变量最少需要多少个比特来表示呢？这个数字通常跟序列的长度n相关，而且对于任意一个给定的n，即使俺们能够确定最优的压缩方法，精确地确定这个数字也是一件很棘手的事。不过既然俺们已经认识到n越大越好，那不妨考虑n取无穷大吧。

        内容未完，下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网，https://wap.mywenxue.org》