论文部分内容阅读
[摘要]信息是一个复杂的概念,我们讨论的信息是基于信息的不确定性。即认为信息是事物的不确定性。那么如何度量信息是对信息的定性描述的一个关键问题。讨论信息的可度量性,度量的标准,度量的方法。并给出信息的度量:香農熵。
[关键词]信息的度量 不确定性 香农熵
中图分类号:O23 文献标识码:A 文章编号:1671-7597(2008)0720044-01
一、信息的可度量性
在日常生活中,许多直观经验告诉我们,信息是有度量的。例如对于一句话,一件事,人们会产生诸如“这句话很有用,信息量很大”“这句话没有用”的评价。说明不同的语言、不同的事件带有不同的信息量。一般来说,越是意外的事情带来的信息量越大。那么应该说,信息确是有度量的,而且它的度量与它所依附事件的复杂度与不确定性有关。其实,获取信息的过程即是不确定性减少的过程。
二、随机变量及其不确定性
我们知道随机变量的不确定性与其概率分布有关,信息论所关心的是这一随机变量的不确定性。显然,随机变量的不确定程度越高,我们从实验中可能获取的信息也就越多。直观看来,随机变量的不确定程度并不一样。如随机变量X,Y,Z,T的概率分布分别为
显然在这几个分布中,不确定性从小到大依次为:T,X,Y,Z,W。特殊的,对随机变量T,变为常量型随机变量,不确定性为零,相应的概率分布称为确定性概率分布。Z的不确定性最大,它服从等概率分布。
那么,若
即随机变量X服从等概率分布时的不确定性最大,且当a增大时,不确定性也会增大。
那么,能否严格的给出不确定性的度量。
三、香农熵
由上述可知,随机变量的不确定性应该是它的概率分布的一个函数,记之为 。
上面这三种表示方法是等价的,其中P是X的概率分布。
香农指出,这样的函数是存在的,并且应该满足以下特性:
1.连续性条件:即 是的非负连续函数;
2.等概率分布时为单调递增函数;
3.可加性条件:当随机变量变量的取值不是通过一次试验而是通过若干次试验最后才得到的,随机变量在各次试验中的不确定性应该可加,且其和始终与通过一次试验取得的结果的不确定性相同。
事实上,上面的三个条件是非常容易理解的,不确定性当然不能是负值,前面也已经讨论了等概率分布时的不确定性随着随机变量取值个数的增加而增大,各个不确定结果应该可以相加。
可以证明出当 满足上述三个条件时,可唯一确定其形式,
上面我们定义的就是香农熵。
因为其定义和热力学熵类似,又是由香农首先提出,因此称为香农熵,简称为熵。
其中c决定了熵的单位。当c=2,e,3,10时,单位分别为“比特bit”,“奈特nat”,“铁特tet”,“笛特det”。一般我们都选择c=2,也就是比特(bit)为信息的度量单位。
比如,扔一枚色子,设X表示扔出的点数,那么X的概率分布就为
假如随机试验完成,发现扔出的点数为2,那么,这个时候不确定性消失为零,在这个过程中,随机试验带给我们的信息量就是log6-0=log6bit。
四、结语
上面我们通过对随机变量不确定的讨论,给出了信息的一个度量:香农熵:
事实上,信息的度量方式并不是唯一的,香农是从随机变量的不确定性角度进行度量,我们还可以从其它方面考虑度量信息,比如从信息的相关度考虑,Kullba-Leibler距离和互信息就是典型的通过度量两个概率分布的差异性而定义的信息度量。
需要强调的是,香农熵只是对离散型随机变量成立,而对连续型随机变量是不能计算香农熵的。
参考文献:
[1]朱雪龙.应用信息论基础[M].北京:清华大学出版社,2001.
[2]沈世溢,吴忠华.信息论基础与应用[M].北京:高等教育出版社,2004.
[3]叶中行.信息论基础[M].北京:高等教育出版社,2004.
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
[关键词]信息的度量 不确定性 香农熵
中图分类号:O23 文献标识码:A 文章编号:1671-7597(2008)0720044-01
一、信息的可度量性
在日常生活中,许多直观经验告诉我们,信息是有度量的。例如对于一句话,一件事,人们会产生诸如“这句话很有用,信息量很大”“这句话没有用”的评价。说明不同的语言、不同的事件带有不同的信息量。一般来说,越是意外的事情带来的信息量越大。那么应该说,信息确是有度量的,而且它的度量与它所依附事件的复杂度与不确定性有关。其实,获取信息的过程即是不确定性减少的过程。
二、随机变量及其不确定性
我们知道随机变量的不确定性与其概率分布有关,信息论所关心的是这一随机变量的不确定性。显然,随机变量的不确定程度越高,我们从实验中可能获取的信息也就越多。直观看来,随机变量的不确定程度并不一样。如随机变量X,Y,Z,T的概率分布分别为
显然在这几个分布中,不确定性从小到大依次为:T,X,Y,Z,W。特殊的,对随机变量T,变为常量型随机变量,不确定性为零,相应的概率分布称为确定性概率分布。Z的不确定性最大,它服从等概率分布。
那么,若
即随机变量X服从等概率分布时的不确定性最大,且当a增大时,不确定性也会增大。
那么,能否严格的给出不确定性的度量。
三、香农熵
由上述可知,随机变量的不确定性应该是它的概率分布的一个函数,记之为 。
上面这三种表示方法是等价的,其中P是X的概率分布。
香农指出,这样的函数是存在的,并且应该满足以下特性:
1.连续性条件:即 是的非负连续函数;
2.等概率分布时为单调递增函数;
3.可加性条件:当随机变量变量的取值不是通过一次试验而是通过若干次试验最后才得到的,随机变量在各次试验中的不确定性应该可加,且其和始终与通过一次试验取得的结果的不确定性相同。
事实上,上面的三个条件是非常容易理解的,不确定性当然不能是负值,前面也已经讨论了等概率分布时的不确定性随着随机变量取值个数的增加而增大,各个不确定结果应该可以相加。
可以证明出当 满足上述三个条件时,可唯一确定其形式,
上面我们定义的就是香农熵。
因为其定义和热力学熵类似,又是由香农首先提出,因此称为香农熵,简称为熵。
其中c决定了熵的单位。当c=2,e,3,10时,单位分别为“比特bit”,“奈特nat”,“铁特tet”,“笛特det”。一般我们都选择c=2,也就是比特(bit)为信息的度量单位。
比如,扔一枚色子,设X表示扔出的点数,那么X的概率分布就为
假如随机试验完成,发现扔出的点数为2,那么,这个时候不确定性消失为零,在这个过程中,随机试验带给我们的信息量就是log6-0=log6bit。
四、结语
上面我们通过对随机变量不确定的讨论,给出了信息的一个度量:香农熵:
事实上,信息的度量方式并不是唯一的,香农是从随机变量的不确定性角度进行度量,我们还可以从其它方面考虑度量信息,比如从信息的相关度考虑,Kullba-Leibler距离和互信息就是典型的通过度量两个概率分布的差异性而定义的信息度量。
需要强调的是,香农熵只是对离散型随机变量成立,而对连续型随机变量是不能计算香农熵的。
参考文献:
[1]朱雪龙.应用信息论基础[M].北京:清华大学出版社,2001.
[2]沈世溢,吴忠华.信息论基础与应用[M].北京:高等教育出版社,2004.
[3]叶中行.信息论基础[M].北京:高等教育出版社,2004.
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”