基于二次互信息的双聚类算法研究及应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:galadelong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种近年来才出现的、新颖的聚类算法,双聚类算法侧重于对子空间内的相似模式进行聚类,这种算法在高维数据的聚类方面具有良好的应用前景。已经证明,双聚类问题是NP-Hard问题,已有的双聚类算法都面临着如何有效聚类数据对象和克服时间复杂度的困难。已经提出了一些非确定性的和确定性的双聚类算法,但是这些算法都是对线性相关的对象或满足某个线性模型的对象进行聚类,然而实际数据中也存在着大量的非线性相关的数据对象;另外,可应用于时序数据的双聚类算法还比较少。 本文首先引入广义信息论中的二次互信息作为相似性度量,提出一种快速的简化计算二次互信息的算法,以克服二次互信息计算开销大的不足,并通过实验,在计算时间开销和识别非线性相关方面,将二次互信息与Pearson相关系数进行了对比,初步验证了二次互信息具有识别非线性相关的能力。在此基础上,基于二次互信息和滑动窗口技术,提出了一种时序数据相似模式-MI窗口相似模式,并以一种后缀树的简单变形-MI-泛化后缀树作为索引结构,提出了一种适用于时序数据的确定性双聚类算法MI-TSB。该算法与其他双聚类算法的显著区别在于,能够快速发现各个滑动窗口下时序数据对象间的非线性相关性。最后,用合成数据和两个真实的时序基因表达数据考察和验证算法的可伸缩性和聚类有效性,并与两个双聚类算法进行对比,实验结果验证了本文提出的双聚类算法具有良好的运行性能,成功地聚类出合成数据中的非线性相关的簇集,发现了隐藏在基因表达数据中的多种聚类形态;利用Gene Ontology对聚类结果进行基因注释,也验证了聚类结果的生物学意义。
其他文献
办公自动化是实现行业信息化的重要手段,设计实现一套功能完备的办公自动化系统是一项复杂繁琐的系统工程。为了获得阶段性的开发成果,从需求分析到项目设计,再到编码实现,每
多视点视频作为一种即将出现的交互式多媒体应用,它的提出体现了下一代多媒体应用网络化、交互性和真实感的发展方向,已经吸引了越来越多的学者,并在各个领域展开了研究,它主要应
模式匹配在许多领域中扮演着重要的角色,如模式集成、数据仓库、电子商务、数据集成等。但是由于模式表达形式的多样性、模式异构的复杂性等,目前对于模式匹配的研究均不能保
本文研究了VPN的分类方法,系统分析了处于TCP/IP网络不同层次的VPN协议规范,详细分析了SSL协议的工作机制和消息格式,就SSL与IPSec、SET、S-HTTP、S/MIME等协议在安全、性能、应
随着计算机技术和无线网络技术的进一步发展,移动办公等移动计算环境下的应用需求目益强烈,同时,应用需要处理的数据量和复杂度也不断增加,这使得许多应用需要嵌入式的移动数据库
随着计算机技术,特别是Internet技术的迅猛发展,在企业内部,由于部门间相对独立,构建系统时缺乏统一的规划和标准,形成了现有的应用系统多是分散、异构、封闭的系统,相互之间
在软件测试过程中,测试用例的生成是软件测试的关键和难点。目前,测试用例的生成主要靠手工完成,而且要求软件测试人员具有一定的经验和较高的专业水平,导致测试效率低下,软件成本
随着信息技术的迅速发展及其在制造业中的广泛应用,企业信息化建设进入了一个蓬勃发展的时代,如何把工艺设计人员从繁重的重复劳动中解放出来;如何有效管理大量的工艺文件和
鉴于开放的异构Web生物信息源数据量庞大,Web 访问低效而易出错,检索接口不完善,难于查询和检索,Web页面结构化程度低等问题,本文研究了基于语义网格的生物信息集成技术,从信息的查
业务构件是企业核心单据的软件实现,对于这种大粒度的软构件,其开发过程存在着大量的重复劳动,且其庞大的代码影响着自身的快速重构。ICEMDA(Interoperable, Configurable an