信息的度量问题概述

来源 :硅谷 | 被引量 : 0次 | 上传用户:a24287490
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]信息是一个复杂的概念,我们讨论的信息是基于信息的不确定性。即认为信息是事物的不确定性。那么如何度量信息是对信息的定性描述的一个关键问题。讨论信息的可度量性,度量的标准,度量的方法。并给出信息的度量:香農熵。
  [关键词]信息的度量 不确定性 香农熵
  中图分类号:O23 文献标识码:A 文章编号:1671-7597(2008)0720044-01
  
  一、信息的可度量性
  
  在日常生活中,许多直观经验告诉我们,信息是有度量的。例如对于一句话,一件事,人们会产生诸如“这句话很有用,信息量很大”“这句话没有用”的评价。说明不同的语言、不同的事件带有不同的信息量。一般来说,越是意外的事情带来的信息量越大。那么应该说,信息确是有度量的,而且它的度量与它所依附事件的复杂度与不确定性有关。其实,获取信息的过程即是不确定性减少的过程。
  
  二、随机变量及其不确定性
  
  我们知道随机变量的不确定性与其概率分布有关,信息论所关心的是这一随机变量的不确定性。显然,随机变量的不确定程度越高,我们从实验中可能获取的信息也就越多。直观看来,随机变量的不确定程度并不一样。如随机变量X,Y,Z,T的概率分布分别为
  
  显然在这几个分布中,不确定性从小到大依次为:T,X,Y,Z,W。特殊的,对随机变量T,变为常量型随机变量,不确定性为零,相应的概率分布称为确定性概率分布。Z的不确定性最大,它服从等概率分布。
  那么,若
  
  即随机变量X服从等概率分布时的不确定性最大,且当a增大时,不确定性也会增大。
  那么,能否严格的给出不确定性的度量。
  
  三、香农熵
  
  由上述可知,随机变量的不确定性应该是它的概率分布的一个函数,记之为 。
  上面这三种表示方法是等价的,其中P是X的概率分布。
  香农指出,这样的函数是存在的,并且应该满足以下特性:
  1.连续性条件:即 是的非负连续函数;
  2.等概率分布时为单调递增函数;
  3.可加性条件:当随机变量变量的取值不是通过一次试验而是通过若干次试验最后才得到的,随机变量在各次试验中的不确定性应该可加,且其和始终与通过一次试验取得的结果的不确定性相同。
  事实上,上面的三个条件是非常容易理解的,不确定性当然不能是负值,前面也已经讨论了等概率分布时的不确定性随着随机变量取值个数的增加而增大,各个不确定结果应该可以相加。
  可以证明出当 满足上述三个条件时,可唯一确定其形式,
  
  上面我们定义的就是香农熵。
  因为其定义和热力学熵类似,又是由香农首先提出,因此称为香农熵,简称为熵。
  其中c决定了熵的单位。当c=2,e,3,10时,单位分别为“比特bit”,“奈特nat”,“铁特tet”,“笛特det”。一般我们都选择c=2,也就是比特(bit)为信息的度量单位。
  比如,扔一枚色子,设X表示扔出的点数,那么X的概率分布就为
  
  假如随机试验完成,发现扔出的点数为2,那么,这个时候不确定性消失为零,在这个过程中,随机试验带给我们的信息量就是log6-0=log6bit。
  
  四、结语
  
  上面我们通过对随机变量不确定的讨论,给出了信息的一个度量:香农熵:
  
  事实上,信息的度量方式并不是唯一的,香农是从随机变量的不确定性角度进行度量,我们还可以从其它方面考虑度量信息,比如从信息的相关度考虑,Kullba-Leibler距离和互信息就是典型的通过度量两个概率分布的差异性而定义的信息度量。
  需要强调的是,香农熵只是对离散型随机变量成立,而对连续型随机变量是不能计算香农熵的。
  
  参考文献:
  [1]朱雪龙.应用信息论基础[M].北京:清华大学出版社,2001.
  [2]沈世溢,吴忠华.信息论基础与应用[M].北京:高等教育出版社,2004.
  [3]叶中行.信息论基础[M].北京:高等教育出版社,2004.
  
  注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
其他文献
为诱变选育出产高温乳糖酶的高产黑曲霉(Aspergillus niger)菌株,采用紫外线诱变和Co60-γ射线诱变协同的方法,对出发菌株D2-26进行诱变处理,并根据致死率与诱变剂量的相互关
中图分类号:TV4 文献标识码:A 文章编号:1671-7597(2008)0720088-01    一、问题形成的由来    由于历史的原因,广州市居民的的生活用水,是在区域性水站供应自来水的基础上,逐步发展为以楼房或自然村、单位住宅、小区住宅等为单元安装一个总表,各用水户安装分表。自来水公司为用户抄单元总表,各用水户则由各户轮值或物业管理公司按每户分表读数分摊计收的方法。同时给水系统的终端支
[摘要]随着网络通讯技术的发展,对监控管理系统提出了新的要求,就如何充分利用现有学校校园网,在较小的投资下,实现校园监控系统的集中管理并完善原有的本地化安全防范手段进行分析论述。  [关键词]监控系统 监控点  中图分类号:TP2 文献标识码:A 文章编号:1671-7597(2008)0720085-01    校园监控对象为校园内各个监控点。由于已经具备了完善的校园光纤网络,我们的监控系统要本
技巧1 利用语境理解抢分    高考英语完形填空的一个显著特点就是考查考生对上下文的理解能力,在许多情况下,所给四个选项往往在语法方面都成立,但是从语境(即上下文)方面来看,却只有一个选项是最合适的。做这类考题时,最简单的方法就是将四个选项分别代人填空句中,其中句子意思最通顺、最合情理的选项通常就是最佳答案。如:    注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
[摘要]随着传统测绘技术向数字化测绘技术转化,工程测量学也发生了深刻的变化,并取得很大的成就。着重阐述数字化技术的应用给工程测量学带来的变化。  [关键词]数字化 工程测量 应用  中图分类号:TU19 文献标识码:A 文章编号:1671-7597(2008)0720098-01    一、引言    工程测量学科是一门应用学科,它是直接为国民经济建设服务,紧密与生产实践相结合的学科,随着科技的飞
[摘要]概述校园网采用多个出口接入互联网的必要性,指出在这种环境下不能采用常规的基于目的地址的路由,可以采用策略路由技术来满足要求,最后给出了一个具体的实例。  [关键词]多出口 路由图 策略路由  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)0720102-01    一、概述    目前高校网络出口都比较复杂,普遍都会采用双网络或者多网络出口方式。其中一个为教育