K-means算法的改进及其在蛋白质亚细胞区间预测上的应用

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:slovedw520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质亚细胞区间预测中,采用词袋模型特征算法提取的序列特征,相对于单纯采用传统的蛋白质序列特征算法,能有效提高最终的识别成功率。词袋模型(Bag of Words Model,BOW模型)中广泛使用K-means算法用于词典的构建。K-means算法具有简单易懂、易于实现,且适应于大规模数据集等优点,而其随机选择初始聚类中心导致聚类效果的不稳定,以及对于非簇型或多维数据集上的局限性等缺点,使采用K-means算法进行聚类得到的词袋特征在—定程度上不能准确反映蛋白序列的特征,直接影响蛋白质亚细胞区间预测的成功率。近些年出现很多基于K-means的改进算法,但大部分忽略K-means算法的相似性距离衡量准则,导致算法在复杂数据结构的数据集上应用效果受到限制,并且基于多维数据集上的数据处理问题,K-means算法的相关改进较少。因此本文围绕K-means算法的以上问题进行改进论文的主要贡献包括:(1)针对K-means算法不能有效聚类复杂结构数据集的问题,提出—种空间密度相似性度量K-means 算法(Spatial-density Similarity Measurement K-means Algorithm,SMK-means算法),采用新的对象间相似性度量公式和迭代准则处理各种复杂结构数据集,算法在三种非簇型人工生成数据集和三种UCI标准数据集上分别实验,同时将结果与传统及改进的三种K-means算法相对比,得出结论为SMK-means算法可有效的聚类各种复杂结构数据集。(2)针对传统K-means算法在维数较多的数据集上进行处理时,平等对待每—维的变量导致聚类效果不佳的问题,本文在SMK-means算法的基础上,引入权值计算,提出加权空间密度相似性度量K-means算法(Weighted-Spatial-Density Similarity Measurement K-means Algorithm,W-SMK-means 算法),使算法在保证 SMK-means算法自身的优势外,面对多维数据集时也更加合理科学地处理。通过UCI中共5组低维和多维的数据集中实验,表明W-SMK-means大大改善K-means对于多维数据集处理上的局限性。同时将提出的算法应用于蛋白序列BOW模型的词典构建中,在蛋白序列ZD98数据集上进行实验,验证W-SMK-means相对于SMK-means算法以及传统及改进的K-means构建的BOW模型,更能准确表达蛋白序列特征,从而有效提高蛋白序列亚细胞区间预测成功率。(3)面对现阶段生物信息数据的爆炸式增长,本文针对蛋白质亚细胞区间预测在大规模数据上的应用需求,采用MPI并行编程技术实现W-SMK-means的并行化,以提高算法执行效率。通过程序在不同进程数中运行消耗的时间对比,展现出并行化算法在处理时间上占据的优势,从而有效提高蛋白质亚细胞区间预测BOW模型构建的效率,使算法在实践中发挥重要作用。
其他文献
制浆行业能耗较高,而其主要的用能来源于煤与黑液的直接燃烧。燃烧锅炉具有燃烧效率低、污染排放大的缺点,因此制浆过程同时也是高排放的产业。利用更低成本、更清洁环保的方式优化制浆过程中的煤炭以及黑液中的能量利用有十分重要的现实意义。气化技术是未来清洁用煤的核心技术,而配合气化技术的低硫化物碱性亚硫酸钠-蒽醌法制浆(Mini-Sulfide Sulfite Anthraquinone,MSSAQ)具有硬度
随着高校基金会的飞速发展,成为助力高校发展的重要力量。其日益增长的资金规模不仅加大了业务管理上的难度,也成为高校风险控制的重点领域。本文从内部控制角度出发,通过具
高压正极材料LiNi0.5Mn1.504由于其价格低廉、无毒和高电压等优势成为锂离子电池发展中备受瞩目的材料。本论文以LiNi0.5Mn1.5O4为研究对象,针对影响其性能的主要问题,如Mn的
牛仔布是服装面料的重要部分,而靛蓝染色的牛仔布更是全球流行,无人不晓.由于靛蓝染料在棉牛仔布上鲜明的流行外观,它可能是惟一被大众所认识的染料.
财务舞弊一直都是学术界关注的热点问题。伴随着社会主义市场经济的发展,我国证券市场也随之蓬勃发展。由于目前我国企业资金获取渠道比较狭窄,很多企业急需上市来拓宽资金渠
脉冲激光与液体相互作用能够在液体介质中激发出声波,这种产生声源的方式称为光声源(OA)。激光与液体相互作用激发声波的机理很多,由激光束照射区域的能量密度不同,主要分为
在当前全球经济面临金融脆弱性上升、贸易和地缘政治紧张局势加剧、不平等和结构性增长疲弱等多重挑战的背景下,全世界的目光都聚焦G20峰会。2018年11月30日—12月1日,二十国集
报纸