第三百四十二章 香农的信息熵 (3 / 10) 首页

字体:      护眼 关灯

上一章 目录 下一章

第三百四十二章 香农的信息熵 (3 / 10)
        很多时候俺们关心的不止一个随机变量,而是很多随机变量。比如,俺们同时关心两个随机变量X和Y,X的取值范围是{1,2},Y的取值范围是{1,2,3}。那么俺们可以把这两个随机变量看作一个随机变量对,写作(X,Y),而把它的取值范围理解为所有可能的(X,Y)取值的组合,也就是{(1,1),(1,2),(1,3),(2,1),(2,2),(2,3)}。把这个集合叫作S,那么这对随机变量就是通过一个定义在S上的概率分布函数P(x,y)来描述的。当这个随机变量对的分布满足P(x,y)=P(x)P(y)的时候,俺们就称这两个随机变量是相互独立的。

        P(0,0)=P(0)P(0)=(2/3)(2/3)=4/9

        P(0,1)=P(0)P(1)=(2/3)(1/3)=2/9

        P(1,0)=P(1)P(0)=(1/3)(2/3)=2/9

        P(1,1)=P(1)P(1)=(1/3)(1/3)=1/9

        独立随机变量的概念当然可以推广到更多的随机变量上。如果有n个随机变量,它们的取值无非就对应了一个长度为n的序列。所有这样序列的集合就是这组随机变量的取值范围。如果这些随机变量是相互独立的,那么每个序列出现的概率无非就是把这个序列中每个数出现的概率乘在一起。比如,上面的老千连续掷了10次硬币,那么出现1101011110的概率就是:

        (1/3)(1/3)(2/3)(1/3)(2/3)(1/3)(1/3)(1/3)(1/3)(2/3)=(1/3)^7*(2/3)^3.

        哎,累死俺了,这个也要讲,学霸们可能要打瞌睡了。不好意思,俺怕讲得太快,有的同学要去看韩剧了。哎,致敬也是体力活啊!

        大数定理的英文是,它的中文翻译通常是“大数定律”而不是大数定理。但俺却偏要叫它大数定理!

        定律或是英文里的w都是指不需要证明但可以被验证的理论假设。比如牛顿的万有引力定律。从数学上说,不需要证明就被接受的假设被认为是公理。但是这个大数定理并非公理,它是被严格证明出来的(证明也不复杂,只要用马尔可夫不等式或切比晒夫不等式就行了),因此准确的数学语言应该叫它“定理”。管他叫“定律”会让人以为这个东东就是假设出来的公理,从而产生歧义,当年也不知道谁这么没涵养管它叫“w”。所以,不管你们服不服,俺都要管它叫大数定理。

        大数定理大概说了这样一个意思。假设有某个随机实验会产生一个随机变量X。如果你重复做这个随机实验n次,你就会得到一个随机变量序列X1,X2,X3,…,Xn。这里假定这些随机变量相互独立(即这些随机实验互不影响)而且n是个很大的数(比如,一万,十万,百万),那么把这n个数加起来除以n(即取平均),得到的数(即(X1+X2+…+Xn)/n)几乎总是很接近随机变量X的均值。同学们注意一下俺这里“几乎总是”和“很接近”的用词哈。虽然俺是个马虎的人,这里的遣词造句是极其考究,极负责任,极具情怀的。

        咱们用老千掷硬币的例子先看看大数定理到底说了些啥子嘛。假设那个老千掷了n次硬币,那么他就得到了n个在{0,1}里取值的数。因为这n个数都是随机的,这n个数的均值当然也是个随机变量,就是说也有一个概率分布函数,有一定的不确定性。大数定理告诉俺们,当n很大的时候,这n个数的平均值“几乎总是很接近”1/3。“几乎总是”和“很接近”是可以在数学上严格定义的,不过当俺讲完它们的定义的时候,估保守,但俺码字已经快要吐血,正在后悔俺为什么要揽下这么个差事,所以就随便套了一下切比晒夫不等式得出下面这些“至少有”的结论):

        当n=1000时,至少有91.1%的概率这个平均值很接近1/3。

        内容未完,下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网,https://wap.mywenxue.org》
加入书签我的书架


上一章 目录 下一章