论文部分内容阅读
论文的研究内容主要包括模糊聚类新方法及其生物应用,以模糊聚类的创新理论为研究重点,以生物领域中的实际应用为背景,内容涉及计算智能技术与相关生物学应用的结合问题,属于交叉学科的研究课题,具有十分重要的理论意义和实际应用价值。论文的研究路线分为两条,首先提出了若干模糊聚类新算法,丰富和完善了模式识别中有关聚类的理论与方法。然后针对生物领域的实际应用问题,研究了面向复杂生物数据集的计算智能新理论,利用计算智能深入的数据分析和信息挖掘能力,揭示大量生物数据之间复杂的相互关系,以此实现理论与应用两条技术路线在生物信息学中的统一。论文的主要工作如下:1.研究了基于核方法的模糊聚类算法:协同模糊核聚类算法和加权模糊核聚类算法。将协同关系函数引入模糊核聚类算法的目标函数中,得到一种新的协同模糊核聚类算法。该算法的特点是通过核方法把数据映射到高维特征空间以扩大样本之间的差异性,并且能用一个目标函数处理多个特征子集的数据,将模糊核聚类算法在不同特征子集上进行协同,使各类中心点的区分更加明显,得到了聚类效果更好的新算法。另外针对加权模糊核聚类算法(WFKCA)容易陷入局部最优的问题,提出了一种改进算法,将迭代自组织数据分析算法(ISODATA)的思想引入到WFKCA算法中,利用聚类中心分裂/合并的中间结果来调整初始中心。改进算法采用特征空间中的计算度量,并增加了对聚类中心的调整幅度,聚类性能更稳定。2.研究了基于模糊散布矩阵的聚类算法及其应用,首先对基于模糊Fisher准则(FFC)的聚类算法的性能进行了改进研究。针对已有算法类中心计算式不准确的问题,提出采用更合理的类中心迭代式的新方法,获得了更好的聚类性能。然后基于模糊Fisher聚类算法在聚类时能得到最优投影矢量,设计了一种适合生物领域智能预测的分类器,它不同于有监督和无监督聚类,是一种整合的模糊Fisher聚类算法,并用于识别分泌性蛋白的信号肽。当用户本身拥有高可靠性的训练样本时,模糊Fisher分类器能很方便地满足用户对模型训练的需求。最后对于维数较高且结构复杂的生物数据集,提出一种自动确定最佳聚类数目的方法,该方法充分体现“类内紧凑类间离散”的思想,结合目标函数二阶差分的判定准则,通过聚类算法的自学习来确定复杂生物数据集的合理聚类数目。3.已有的蛋白序列特征提取方法是对整条独立序列的特征提取,不适用于替换局部信号肽序列以后的外源蛋白质。因此我们将信号肽与外源蛋白之间的相容程度定义为结构融合度,从数学角度分析信号肽拼接以后与邻近残基之间的相互作用,提出信号肽拼接区域与目标蛋白之间的数学模型。将从模型提取的结构融合度特征用于识别外源蛋白的可分泌性,取得了满意的实验结果。4.对近期提出的一种基于点对约束的半监督模糊聚类算法进行了研究,研究发现其约束项与原算法的目标函数之间数量级不一致,是造成隶属度调整过度的主要原因。针对该问题,我们在重新定义目标函数的基础上提出了改进算法,引入新的约束惩罚函数,通过优化求解带约束惩罚条件的目标函数得到了新的半监督聚类算法。新的约束项与原目标函数之间能很好地协调合作,并能通过对隶属度的适当调整得到更好的聚类效果。