第三百四十二章香农的信息熵 (2 / 10)_数学大帝

第三百四十二章香农的信息熵 (2 / 10)
        这个游戏可以大致等价于这样一个数字游戏。假设M是个大于1的正整数，俺俩在玩游戏之前就商议确定好。俺在1到M之间任意想一个整数，你的任务是用最少的“是不是”形式的问题问出这个数是多少。

        对于这个数字版的“二十个问题”游戏，聪明的宝宝都会发现类似这样的结论：M的数值越大，需要的问题越多。但爱钻研的同学可能会想到另一个问题：对于一个给定的问问题策略，所需问题的“多”或“少”又是用什么来衡量的呢？比方说，M=8，而你的问法是依次问如下问题：“这个数是不是1”，“这个数是不是2”，“这个数是不是3”，一直到“这个数是不是7”（如果问完“这个数是不是7”你觉得还需要问“这个数是不是8”的话，那请你去看韩剧吧）。在这种情况下，如果俺想的数字是1，你只需要一个问题就可以知道答案；而如果俺想的数字是8，你必须在问完7个问题之后才能知道答案。换句话说，即使问问题的策略确定，因为俺心里那个神秘数字的不确定性，你所需要的问题数目也是不确定的。因此我们需要把这个数字版“二十个问题”游戏更准确地描述出来，或者说，把在什么意义上“最少”定义出来。

        让俺先喘口气，喝口水，扯点概率论，回头再看这个问题。

        咱们也别讲究数学的严谨了吧，直接讲这个叫随机变量的东东。

        随机变量描述的是一个随机实验可能出现的结果以及每种可能结果的可能性，也就是概率。先看一个例子。

        例［老千掷硬币］：假设某老千每次投掷硬币的结果有1/3可能性出正面，2/3的可能性出反面。那么掷一次硬币就是一个随机实验，掷硬币的结果就是一个随机变量，我们这里记作大写的X。如果把正面记作1，反面记作0，那么这个随机变量X可以通过一个函数P(x)来描述：函数的变量（小写的）x的取值范围是集合{0，1}，这个集合此后记作S；函数在0和1的取值分别为：P(1)=1/3，P(0)=2/3。

        从这个例子可以看出，一个随机变量X无非是通过在某个集合S上定义的一个函数P(x)来描述的，而这个函数不能取负值，而且必须在对其变量x求和的时候结果为1（在老千掷硬币的例子中即：P(0)+P(1)=1)。这个函数通常被称为随机变量X的概率分布。

        当然，同样是掷硬币，可以定义出很多不同的随机变量（即不同的概率分布函数P(x)）来。普通人掷硬币对应的随机变量基本就是P(0)=P(1)=1/2。赌神掷硬币对应的随机变量可能是P(0)=1，P(1)=0。

        生活中的随机变量比比皆是。比如，在掷骰子的时候，骰子掷出的结果这个随机变量对应于一个定义在S={1，2，...，6}上的概率分布函数P(x)，通常认为P(1)=P(2)=...=P(6)=1/6。再比如明天会不会下雨（天气预报不准的啦），会有几个人给俺这篇吐血之作点赞或转发（不晓得多少人更喜欢韩剧的啦）这些不确定的事情里都可以定义出随机变量来。记得不知道哪一位伟人曾经说过，“随机变量是到处都有的。对于我们的脑袋，不是缺少随机变量，而是缺少发现。”

        在前面说的那个数字版“二十个问题”游戏中，俺心里想的神秘数字对你来说也是一个随机变量，它的概率分布P(x)是定义在S={1，2，...，M}上的函数。如果我选数字是“完全随机的”，那么，这个函数就是P(1)=P(2)=...=P(M)=1/M。这种分布通常被称为均匀分布。当然，取决于俺按什么偏好选数字，这个函数也可以取其他形式：如果俺就是喜欢2，也许俺会以更高的概率取2。

        假设有个随机变量X，它的取值范围S={1，2，…，M}，它的概率分布函数是某个定义在S上的函数P(x)。那么这个随机变量的均值（更文化点的说法叫数学期望值）就是这样一个东东：

        1*P(1)+2*P(2)+3*P(3)+…+M*P(M).

        在上面老千掷硬币的例子中，随机变量X的均值就是1*(1/3)+0*(2/3)=1/3。简单吧。

        很多同学可能都有直觉的认识，能感觉到如果把产生这个随机变量X的随机实验做很多次，把得到的数字取平均，那么这个平均数差不多就是X的均值。这个概念，叫做大数定理，跟俺要讲的熵有着本质的联系，俺这里不敢唐突，稍后会带同学们仔细品味。

        内容未完，下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网，https://wap.mywenxue.org》