基于主动学习的非实验蛋白数据挖掘方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:bindao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的功能与其亚细胞定位密切相关,针对蛋白亚细胞定位预测中实验数据缺乏的问题,利用主动学习方法,提出一种从非实验蛋白质数据中主动挑选样本的方法。该方法基于一个可以衡量样本有用性的评估函数,利用该函数估计出每个样本对于分类预测的价值从而主动挑选出最具价值的样本。以Swiss-Prot蛋白质数据库为基础,按照蛋白质条目信息对蛋白质进行筛选,然后用PISCES对蛋白质序列进行处理,把得到的蛋白质序列进行PseAA特征提取,构建革兰氏阳性菌、革兰氏阴性菌和植物数据集。把主动学习方法引入蛋白亚细胞定位预测问题中,基于损失函数和标签概率,构建非实验标记样本挑选算法。利用三个分类器在三个数据集上进行实验,按照挑选出来的顺序把非实验样本逐渐加入到原始训练集中重新训练当前分类器并用测试集测试分类器的性能。实验结果一方面表明取得的最好预测结果均比未加非实验样本和加入所有非实验样本时高,这说明该算法可以选择合适数量的非实验样本从而提高预测效果;另一方面表明训练数据缺乏问题比较严重时,预测效果提高的也越多,这说明非实验样本对于提高分类器性能的重要性。因此基于主动学习的非实验蛋白数据挑选算法能够有效实现最具价值样本的挑选,可以有效地解决蛋白亚细胞定位预测中实验数据缺乏的问题。
其他文献
利用扩散加权磁共振成像重构脑白质神经纤维是目前活体显示脑功能区神经纤维走向的重要方法。对于脑认知功能、脑外科手术导航、精神类疾病的研究具有重要的意义。扩散张量成
由于机器人对外界环境的感知能力相当有限,需要添加各种外部传感器来提高机器人的智能水平和自主能力。在诸多传感器中,视觉传感器由于具有信息量大,适用范围广等特点而成为
随着社会经济的飞速发展,进入新世纪以来,国内汽车数量显著增长。汽车牌号作为汽车身份的唯一认证,广泛用于车辆的检测、识别和跟踪。随着智能交通硬件体系的整体提升,对车辆的多
磷酸铁锂电池组是目前备用电池系统中广泛使用的动力电池组,应用于军事和民用小型电器中,其可靠性关系到计算机系统、电信系统等很多重要场合的稳定与安全。而作为电池系统,磷酸铁锂电池组拥有大电流充放电的性能,它储存能量是巨大的。其安全性能必然占据着首要位置,所以对磷酸铁锂电池组的监测尤为重要。在研究磷酸铁锂电池成组后性能的基础上,对电池组的实时监测是提高电池组安全可靠性的关键技术,也是行业学者和电源系统公
网络控制系统(Network Control System, NCS)是一种全分布式,以通信网络为传输媒介实现反馈控制的实时控制系统。通信网络作为数据传输媒介,系统中传感器,执行器,控制器各节
基于复杂非高斯随机过程的控制问题是伴随着信息技术的发展,从实际工程中推导出的控制科学问题.在此基础上,将输出概率密度函数作为被控对象,分析其建模及鲁棒控制方法,已成
在当今社会,随着生产工程的复杂化以及日益大型化,提高系统的可靠性就显得十分重要,而故障检测是提高系统可靠性的有效途径之一。目前,针对经典线性系统的故障检测及估计算法已有
无人机功能的增加、任务的复杂化以及余度系统的使用等因素导致飞行控制软件开发和维护工作越来越繁重,因此在软件设计中需要采用功能强大的多任务实时操作系统以及合理的数据
三维桥式吊车作为重要的一种运载工具,广泛用于港口、建筑工地等工业场所,设计其自动控制系统对提高生产效率和生产安全具有重要意义。另外,三维吊车系统是-种典型的欠驱动系