PBIL算法在蛋白质二级结构预测中的应用

来源 :第六届中国Rough集与软计算学术研讨会(CRSSC2006) | 被引量 : 0次 | 上传用户:hwqcy1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构预测是根据氨基酸序列预测相应蛋白质空间结构,是当前分子生物学首要解决的难题,并被列为21世纪生物学的首要任务.60年代初,Anfinsen就提出了他的著名论断:蛋白质特定的空间结构是由其氨基酸排列顺序决定的,而蛋白质的天然构象是能量最低的构象.从此,利用能量极小化方法预测蛋白质结构有了合理的热力学基础.然而,由于蛋白质是一个强柔性的大分子体系,其能量表面存在着极多的局部极小点,缺少一种有效的全局优化方法困扰着蛋白质结构研究的进展.为解决这一问题,人们从两方面进行努力:一是在保持精度的条件下,简化物理模型和数学模型;二是寻找适用于蛋白质结构预测的全局优化方法,这是科学家们长期努力研究的重要内容.本文研究 PBIL算法及其扩展和在蛋白质二级结构预测中的应用。
其他文献
自动调制识别是通信信号处理及相关领域中一个前沿专题,尤其在空中交通管制、电子对抗等方面得到广泛应用.数字通信的快速发展形成了多种通信体制并存的局面,而且这些通信体制的调制方式和接入技术各不相同,给多体制间的通信互联带来了很大的障碍.自动调制识别技术是构成基于软件无线电的通用接收机和智能调制解调器的重要技术基础,在多体制通信互联和软件无线电方面有着十分重要的应用.近年来,在模式识别、信号处理、时间序
在数据挖掘的研究中,预测模型的研究是一个很重要的问题.而分类是预测的手段之一,因此分类方法的研究又是至关重要的.目前,国内外常用的分类方法有统计方法、机器学习方法、粗糙集方法、神经网络方法和遗传算法等.然而,这些方法却存在许多不足之处.例如,用神经网络方法分类的可解释性差;统计方法需要大量的先验知识而且得出的不是规则形式,不易让用户理解;用遗传算法进行分类,运行花费的时间长.因此,人们希望分类器得
入侵检测是一种重要的网络安全技术.Denning在1987年提出了通用入侵检测模型,为入侵检测奠定了理论基础.随后发展出误用检测和异常检测两种检测技术.异常检测建立正常行为模型,以是否显著偏离正常模型为依据进行检测,能够发现未知攻击,是目前的研究热点.传统的检测系统采用有监督的学习算法,需要带标记或完全正常的数据来训练获得正常行为模型.若标记错误,算法将失效.况且,要为训练数据收集到完全正常的数据
本文给出了一种基于进化规划的K-均值聚类算法.从实验中我们可以看出,该算法与基于遗传算法的K-均值算法相比,在性能和效率上有很大改进.这种性能的提高主要得益于进化规划算法强大的全局寻优能力。
数据挖掘是数据库研究、开发和应用最活跃的分支之一.分类(Classification)是一类重要的数据挖掘问题,它是一个从现有的带有类别的数据集中寻找同一类别数据的共同特性,并以此将它们进行区分的过程,它可以用于提取描述重要数据类的模型和预测未来的数据趋势.分类的方法主要有决策树,神经网络,粗糙集,遗传算法,贝叶斯分类等.本文研究BBP模型和基于感知器的数据挖掘分类方法。
在大量的AI应用中,最常遇到的问题之一便是寻找从起点到目标点之间的最短路径.一般来说,路径的寻找是基于状态空间的,在AI中的最短路径的寻找中,常以启发式搜索算法为主.启发式搜索就是在状态空间中的搜索过程中,对每一个搜索位置进行评估,以便得到最好的位置,再从这个位置进行搜索直到目标.这样可以节省大量无谓的搜索路径,提高效率.在启发式搜索中,对位置的估价是十分重要的,采用不同的估价会产生不同的效果.
通过对文本集的词-文档矩阵进行奇异值分解(SinguIar Value Decomposition,SVD),提取K-秩近似矩阵近似表征原词-文档矩阵,左右奇异向量分别为词向量和文档向量,在此基础上进行文本分类和其它各档处理,这就是隐含语义索引技术.本文对此问题进行了研究.该文利用查询向量和各文本向量之间的夹角余弦表示相似程度,寻找和用户查询最相似的文档集合,并按相似度的高低排列,将相似度大于用户
特征子集选择问题是指从一个给定的候选特征集合中,根据一定的评价标准,选出一个特征子集,使其能够一致地描述给定的例子集合.很明显通过特征子集选择,可以减少描述原数据集合的特征(属性)的数目,进而可以减少原数据集合的例子数.而在实际应用中,数据挖掘或模式识别所处理的对象是大型的数据库.其中每个记录都包含了许多特征(属性),由于在数据的采集过程中,可能会因为某些特征提取费用或设备和人为等原因,造成了属性
在分类问题中采用基于后验概率的支持向量机,能够得到更多的信息,也更接近真实情况,所以在实际问题中可以获得更好的分类准确性.对本文中的基于后验的支持向量机与-支持向量机的等价性问题在今后的工作中还需进一步深入研究其内在原因。
聚类特点是输入空间的样本没有理想输出,因此它属于无监督模式识别问题.对于聚类问题,就是根据样本之间的某种相似度,将比较相近的样本自组织地聚集到一类.一般聚类的目标,就是使得类内距离最小和类间距离最大.其中分级聚类和k-均值聚类是两种的比较常用聚类方法.但此两种方法各有自己的优缺点.分级聚类精度高,但由于计算复杂度太大,不适合大规模样本的聚类.K-均值聚类计算复杂度较低,但是受初始聚类中心的选择影响