论文部分内容阅读
蛋白质亚细胞区间预测中,采用词袋模型特征算法提取的序列特征,相对于单纯采用传统的蛋白质序列特征算法,能有效提高最终的识别成功率。词袋模型(Bag of Words Model,BOW模型)中广泛使用K-means算法用于词典的构建。K-means算法具有简单易懂、易于实现,且适应于大规模数据集等优点,而其随机选择初始聚类中心导致聚类效果的不稳定,以及对于非簇型或多维数据集上的局限性等缺点,使采用K-means算法进行聚类得到的词袋特征在—定程度上不能准确反映蛋白序列的特征,直接影响蛋白质亚细胞区间预测的成功率。近些年出现很多基于K-means的改进算法,但大部分忽略K-means算法的相似性距离衡量准则,导致算法在复杂数据结构的数据集上应用效果受到限制,并且基于多维数据集上的数据处理问题,K-means算法的相关改进较少。因此本文围绕K-means算法的以上问题进行改进论文的主要贡献包括:(1)针对K-means算法不能有效聚类复杂结构数据集的问题,提出—种空间密度相似性度量K-means 算法(Spatial-density Similarity Measurement K-means Algorithm,SMK-means算法),采用新的对象间相似性度量公式和迭代准则处理各种复杂结构数据集,算法在三种非簇型人工生成数据集和三种UCI标准数据集上分别实验,同时将结果与传统及改进的三种K-means算法相对比,得出结论为SMK-means算法可有效的聚类各种复杂结构数据集。(2)针对传统K-means算法在维数较多的数据集上进行处理时,平等对待每—维的变量导致聚类效果不佳的问题,本文在SMK-means算法的基础上,引入权值计算,提出加权空间密度相似性度量K-means算法(Weighted-Spatial-Density Similarity Measurement K-means Algorithm,W-SMK-means 算法),使算法在保证 SMK-means算法自身的优势外,面对多维数据集时也更加合理科学地处理。通过UCI中共5组低维和多维的数据集中实验,表明W-SMK-means大大改善K-means对于多维数据集处理上的局限性。同时将提出的算法应用于蛋白序列BOW模型的词典构建中,在蛋白序列ZD98数据集上进行实验,验证W-SMK-means相对于SMK-means算法以及传统及改进的K-means构建的BOW模型,更能准确表达蛋白序列特征,从而有效提高蛋白序列亚细胞区间预测成功率。(3)面对现阶段生物信息数据的爆炸式增长,本文针对蛋白质亚细胞区间预测在大规模数据上的应用需求,采用MPI并行编程技术实现W-SMK-means的并行化,以提高算法执行效率。通过程序在不同进程数中运行消耗的时间对比,展现出并行化算法在处理时间上占据的优势,从而有效提高蛋白质亚细胞区间预测BOW模型构建的效率,使算法在实践中发挥重要作用。