聚类算法研究及其在网络模块性分析中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:madeshabi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的发展,大多数复杂系统都可以建模成一个网络模型(图模型),通过对该网络模型的研究,可以有利地帮助我们理解复杂系统的功能。复杂系统的一个重要特性就是“模块性”(Modularity),这种特性表现为模块内部的节点连接比较稠密,模块间的节点连接比较稀疏。在社会网络中称之为“社团结构”(Community Structure),生物网络中称之为“功能模块”(Functional Modules)。通过对这种特性的研究可以更好的帮助我们理解复杂系统的机能和特性,且对复杂系统的控制、预测、变化和发展都具有至关重要的意义。针对复杂网络系统的模块性,本文着重研究网络模块性分析的聚类算法及其在真实网络中的应用:(1)提出一种基于模糊聚类的网络模块性分析方法。与现有算法不同之处在于,该算法不再通过一个图模型上的遍历搜索来寻找模块,即社团结构,而是把网络建模成一个模糊关系模型,通过模糊关系的运算(模糊关系的合成)来达到识别社团结构的目的。基于社团结构与等价类的共性(自反性、对称性、传递性),建立起两者间的一一对应关系,即把社团结构映射为满足某一等价关系的等价类。在人工网络与真实网络中的测试结果表明,该算法可以有效地识别网络中的已知社团,也可以用来识别重叠社团。(2)基于上述建立的模糊关系模型,提出一种基于最小熵聚类的网络模块性分析方法。融合网络拓扑和熵的特性,利用一种基于熵的测度来刻画节点间的关系,且熵越小,节点间越相似,社团越稳定。然后提出一种新的模糊关系的合成规则,并通过该规则来完成节点间最小熵的传递。在人工网络与真实网络中的测试结果表明,该算法可以有效地识别网络中的已知社团。(3)由于派系过滤算法(CPM)在识别蛋白质相互作用网络(Protein-Protein Interaction, PPI)中的功能模块时,没有考虑到派系对节点度的要求。针对这一点,提出一种基于派系过滤的快速迭代式聚类算法(ICPM)。该算法充分考虑到派系对节点度的要求,即k-派系里的节点的度至少为k-1,同时把识别k-派系转化为(k-1)-派系,通过递归的方式来实现从小派系到大派系的识别过程。与CPM算法相比,该算法减小了网络上识别社团的搜索空间,提高了效率。(4)针对不同物种间PPI网络功能模块的保守性,提出一种基于模块比对的方法来识别物种间的保守功能模块。与传统的网络比对方法相比,模块比对先利用聚类算法把PPI网络进行模块化分解以此来降低问题的复杂度,然后通过不同物种蛋白质间的序列相似性,建立起不同物种模块间的映射关系,从而达到识别保守模块的目的。该算法识别出来的保守模块在功能注释上具有很高的一致性,且从MCL算法分解的模块中识别出来的保守模块优于其它算法。但是,由于对网络进行了分解,破坏了整个网络结构,导致有些保守模块难以识别。(5)导致相似疾病的基因其蛋白质产物会在PPI网络中表现出很紧密的交互性,这也可近似为模块性。针对这一特性,提出一种基于聚类分析的PPI网络中疾病相关模块的预测方法。通过一种集成多个生物证据的概率化模型来刻画疾病相关模块,且得分越高与疾病的关联性越大。结果表明CPM算法分解的模块做为候选的疾病相关模块优于MCL算法与MCODE算法,同时还发现大多数疾病相关模块都由Tissue-Specific Genes组成,且只在少部分人类组织(Human Tissues)共表达(Co-Expressed),少数疾病相关模块由House Keeping Genes (Maintenance Genes)组成,且在大部分人类组织共表达。本文研究网络模块性分析的聚类算法及其在真实网络中的应用,特别是PPI网络中功能模块的识别以及疾病相关模块的预测。此外对于其它具有相似结构的复杂网络本文所讨论的算法也具有适用性。
其他文献
通过分析投资学实践教学体系存在的问题,提出投资学本科专业实践教学体系立体化创新的“八化”模型:时间维度全程化、空间维度多元化、实践教学项目层次化、实践教学形式多样
目的:总结获得性血友病A的临床特点,以提高对本病的认识。方法:分析2例获得性血友病A的临床资料,并结合有关文献进行复习。结果:2例患者均为老年男性,表现为自发性皮肤软组织
目的探讨巴曲酶注射液联合依达拉奉对老年脑梗死患者神经功能缺损评分及血清同型半胱氨酸(Hcy)、血管内皮细胞生长因子(VEGF)、神经生长因子(NGF)、脑源性神经生长因子(BDNF)水平变化
欲降先升是方剂学中一种较特殊的配伍法,对其来源、含义、应用规律及注意事项作了探讨.
阿多诺之所以会在20世纪50年代提出"奥斯维辛之后写诗是野蛮的"这一著名论断,与他对"奥斯维辛"在西方现代思想史中的重要性的判断,以及战后西德的政治、文化和文学等领域对"
<正>随着社会的不断发展,突发事件也随之不断增多,如海难、车祸、有害气体中毒、食物中毒、房屋倒塌等,成批病人的瞬时来院,极易出现就医秩序混乱,由于工作人员的相对缺乏,而
本文根据对淄博地质情况及复杂地界情况下基坑支护选型案例的分析,提出淄博地区房地产开发复杂地界情况下基坑支护选型的指导方法。 Based on the analysis of Zijin geolog
市政污泥与食品废弃物都是高资源化价值的固体废弃物,两者混合发酵产酸可以提高目标产物VFA浓度,提高底物有机质的降解率与转化率,增强污泥产酸工业化可行性。全文研究内容包
本文针对缓冲区有限的两阶段置换流水车间调度问题的基本性质进行了分析,指出了缓冲区的大小对于问题最优解的影响并证明了该问题的复杂性。通过对原问题及其特例在目标函数