论文部分内容阅读
IB方法(InformationBottleneck)通过对数据的压缩来分析其中所蕴含的内在模式,在机器学习、模式识别等众多领域中取得了成功的应用。多变量IB方法(MultivariateInformationBottleneck)是对IB方法的拓展,采用更多的变量来抽象现实问题,让更多的信息参与到数据的压缩中,通过它们之间的互相配合共同完成更具挑战性的数据分析任务。 多变量IB方法为多元数据分析问题提供了理论框架,其协作模型是对数据分析任务高度抽象化的一种形式,刻画了变量之间的协作关系,为数据分析任务目标函数的确定提供了依据。一个好的协作模型可有效利用领域问题中所有有价值的信息来完成数据分析任务。算法则实现了对目标函数的优化,事关数据分析的效率及目标函数的优化程度。协作模型与算法均是多变量IB方法研究的核心问题。 本文从双向压缩、无冗余多视角聚类、多特征变量信息融合和选择性数据分析四个问题出发,重点研究多变量IB方法的协作模型与算法,主要成果有: (1)提出交叉对称IB协作模型(ICSIB),将压缩之前的原特征变量引入到对称IB的双向压缩中,解决对称IB中特征信息损失问题。ICSIB算法采用交错的“抽取-合并”顺序迭代过程对ICSIB目标函数进行优化,理论上保证收敛到目标函数的局部优解,具有较低的时间和空间复杂度。实验表明,在原特征变量的协助下,ICSIB算法所得到的数据双向压缩模式更接近于数据中真实的内在模式。 (2)提出无冗余IB协作模型(NrIB),将已知数据划分信息以负变量的形式融入到数据的压缩中,使它们协助IB方法挖掘一个新的高质量聚类模式。NrIB算法既适宜于分析共现数据又适宜于分析欧氏空间的非共现数据,可挖掘出数据中线性及非线性可分模式,无需额外参数来估算欧氏空间中的信息量。实验表明,NrIB算法可有效地利用已知数据划分信息来学习一个无冗余高质量的聚类模式。 (3)针对多特征变量信息融合的问题,提出多特征IB协作模型(MfIB)与基于数据局部一致性特征的IB协作模型(LCIB),使得多变量IB方法可在多种特征信息的协助下共同挖掘数据中所蕴含的内在模式。实验表明,综合考虑了多种特征信息的MfIB算法与LCIB算法可更有效地发现数据中所蕴含的真实模式。 (4)提出一个具有数据选择分析能力的DSIB算法。该算法采用顺序“或抽取-或合并”的策略来优化DSIB目标函数,可有选择地对数据进行模式分析。论文从理论上证明了该优化算法可在有限步骤内收敛到目标函数的局部优解。实验表明,DSIB算法可更好地发现数据中凝聚性强的簇模式。