基因芯片数据聚类算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lmnlmnbalance
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先将相对熵作为相似性度量标准引入到基因芯片数据的聚类分析中,提出基于相对熵的K-均值聚类算法,算法采用最大-最小规范化和区间离散化对原始数据进行预处理,并将该算法应用于啤酒酵母基因芯片数据.实验表明,相对熵作为相似性度量标准,不仅可以得到合理的聚类结果,而且可以提高K-均值算法的收敛速度.其次,对基因芯片数据的模糊聚类进行了研究,设计并实现了基因芯片数据模糊C-均值聚类算法.算法可以在迭代过程中对隶属度进行修正,并能动态地确定模糊权重指数.这在一定程度上提高了算法的收敛速度和聚类准确性.同时对模糊聚类有效性的判别方法进行了研究,并对模糊聚类的有效性指标进行了理论分析和实验验证.本文最后对基因芯片数据的层次聚类、K-均值聚类和模糊聚类进行了综合的比较和分析.
其他文献
目前,以SMP服务器作为结点的机群系统被普遍采用。由于单个结点上多个CPU的使用,机群对结点间的通信带宽提出更高的要求。虽然目前的高性能通信网络得到迅速的发展,但因受物
本文主要研究了设计模式组合技术及其使用,提出了采用UML及其扩展机制表示的用于支持设计模式组合方法的三个模型:模式级模型、带接口的模式级模型和细化的模式级模型,
随着人们对地理信息需求的不断增长和网络技术的飞速发展,GIS技术与网络技术相互融和形成了网格GIS技术。虽然目前网格GIS技术已越来越多地应用于各个领域,但国内农业灌区领
关联规则挖掘首要解决的是效率与伸缩性问题。由于数据挖掘任务所面对的数据集通常是由数以百万计的记录所构成的大型数据库或数据仓库,因此如何提高从大型数据库中挖掘关联
本文从以下几个方面进行了研究:1.汉英双语句对短语结构对齐的研究。利用词对齐、句法分析的结果进行短语结构对齐。研究了两种不同的结构对齐方法:第一种方法只对
本文主要目的是研究适合于交互式语音应答系统的关键词识别技术.研究内容主要包括:1.基于连续隐马尔可夫模型(CHMM)框架下关键词识别声学模型的建立.要想设计一个好的关键词
视频通信存在两大问题,一是网络异构性,二是传输的可靠性。在视频编码方面,分层编码用来解决网络传输异构性问题,多描述编码是解决传输可靠性的有效手段,而多描述分层编码则
本文针对XML数据的"内容相关性",给出了一个基于此的存储策略,同时研究了该存储策略上的相关数据操作.XML数据元素不仅具有层次关系,数据元素之间及数据元素与路径之间同样存
本文的主要内容就是纸币清分机软件系统的研究与实现,包括清分程序与控制程序两个主要部分.由于纸币清分机本身对于速度有较高的要求,文中在很多方面都采用了特殊的处理方法
显式并行语言和自动并行化编译是高性能计算平台上并行软件开发的主要途径。无论哪种程序设计模式,编译器的一个重要工作就是充分发掘和优化程序中的并行性。并行语言的优化