论文部分内容阅读
在各种实际应用中经常要研究各种变量之间的复杂关系,这往往需要考虑度量各个变量之间的关联程度的指标。在现有的诸多指标中,互信息和条件互信息作为信息论的基本概念,受到了相关领域专家学者的广泛关注,在很多工程与应用领域,比如生物、化学、通信等领域得到很广泛的应用。但是由于其精确计算的复杂程度,大大的限制了应用的范围。特征征选择是变量降维的一个重要应用。通过特征提取得到的输入特征数据量很大,直接用于分类需要很大的运算量。特征选择的研究任务就是寻找一种好的算法,以便在允许的时间内找出对分类最有效的一组特征。用信息论的方法进行特征选择是较常用的一种方法。用信息论算法进行特征选择要同时考虑各输入特征对分类类别的重要性和各输入特征之间的相关性,用输入特征和分类类别的互信息反映该输入特征对分类的重要性,用输入特征之间的互信息反映输入特征之间的冗余性。
本文在前人工作的基础上,首先提出了函数相关系数作为度量离散型变量之间的相关指标并从理论上严格证明了其性质,表明该系数可以用来描述随机变量之间的函数相关程度(包括线形和非线性)。其次,在该指标和信息论概念的基础上设计了一种新的特征选择方法,通过实验计算说明该方法是可行有效的。最后,将函数相关系数应用于其它实验,通过和现有的系数均方列联进行比较更进一步认识该系数具有的特性。文章分为五个部分:
第一部分,对现有相关性度量指标的国内外发展状况以及相关的基本概念进行了介绍,并阐述了本文的主要工作;
第二部分,介绍信息论基本概念、原理以及信息论在特征选择中的应用,并分析了其优缺点及国内外的主流算法策略。
第三部分,在传统相关系数的基础上进行扩展,提出新的指标(函数相关系数),从理论上讨论并证明其具有的良好性质。
第四部分,将函数相关系数应用到特征选择中,在与信息增益的特征选择方法的比较实验中,说明该算法的有效可靠性,有着广阔的应用范围。
第五部分,将函数相关系数应用到一些其他实验中,通过和均方列联的比较进一步验证其性质及合理性。