基于混合特征的蛋白质分类问题研究

来源 :河北工程大学 | 被引量 : 0次 | 上传用户:nurgul2120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在生物体活动中扮演着重要角色。各种各样的蛋白质凭借其独特的结构和功能在生物体内各司其职,发挥着不可替代的作用。蛋白质识别是探究蛋白质生物学功能的第一步,做好蛋白质识别工作可为后续研究奠定坚实基础。自人类基因组计划实施以来,未知结构与功能的蛋白质序列数量迅猛发展,传统的生物实验来分类识别蛋白质序列已经无法满足当今时代对速度的需求,所以众多研究者们将机器学习算法应用在了蛋白质分类研究中。目前在蛋白质分类识别中,仍然存在一些问题:数据集类别不平衡;未很好地用数字形式将蛋白质序列信息表示出来;特征集中存在无效特征或特征之间存在冗余性;分类算法选用不恰当等。本文通过总结现有模型存在的这些问题,分别对噬菌体蛋白质、电子传递蛋白的分类进行了探究。在噬菌体蛋白质分类识别中,本文通过综合多个角度的信息提取蛋白质的信息,并通过特征组合的形式实现各个类型特征集之间的信息互补。然后,本文通过特征选择算法将特征与类别之间具备强相关性、特征与特征之间存在低冗余性的特征挑选出来,并对特征集中的特征进行排序。在随机森林算法下,通过计算每一维特征添加进特征集后的性能指标,得到每种类型特征集的最优特征子集。最后通过对比实验验证了基于序列基本信息与结构信息的模型比基于单种类型的模型性能要好。除此之外,本文从基于特征提取方法、分类算法等方面一一验证了本文所提出的模型的优越性。在电子传递蛋白分类识别中,本文提出的模型不仅性能较好,且计算速度很快。本文仅仅基于DT算法所提取的前4维特征进行模型构造。在这部分研究中,首先通过类似于EasyEnsemble算法思想对类别不平衡的数据集进行了处理。然后在特征提取时将进化信息、频率分布信息考虑在内。随后,基于四种特征提取算法本文共构造了40个子模型,依次探究出最适于本次研究的分类模型。另外,本文通过观察有效特征的正反例数值分布得出在同一维特征中,正反例数据分布差异越大,模型分类效果就越好。
其他文献
煤炭占我国一次性能源消费比重仍高达65%左右,其作为主要能源在经济发展过程中始终起着举足轻重的作用,经济多年的稳步发展离不开煤炭产业的大力支持。近几年来,我国煤矿企业的总体安全生产形势不断好转。然而,由于巨量煤炭开采所带来的零星事故依然不断,造成的煤矿事故次数和死亡人数总量依然居高不下,与其他一流采煤水平国家相比,仍然是10倍以上的差距。究其原因,相关的能量载体或危险物质、安全防护系统(包括技术、
我国是一个地震频发的国家,且地质环境复杂,拥有很长的海岸线,很多水下隧道和桥梁等基础工程大多数均位于陆地与海洋接壤的地震多发地带,但目前针对水下的局部地形或者结构的地震动力响应的研究还很少。本文基于Biot的两相饱和多孔介质理论,在考虑水-饱和土层-基岩多介质耦合的条件下,采用数值方法研究了水下局部凹陷场地地震动力特征,为水下工程的抗震设计提供理论与技术支持。论文的主要工作和研究成果如下:1.建立
黄土地层记录了大量的第四纪气候环境信息,为研究第四纪气候环境演变提供了较好的研究材料。对研究过去、现在、未来的环境演化以及冰期旋回周期和成因都有着极为重要的意义。本研究主要根据辽宁省中部沈阳地区一黄土剖面记录的粒度、磁化率以及地球化学元素等气候环境代用指标,结合光释光测年和古地磁测年建立的年代框架,初步分析了该地区黄土剖面的沉积成因以及所记录的气候环境演变信息。主要得到以下结论:1、经过光释光年代
随着互联网的迅速发展,可建模为复杂网络的社交网络,用一种全新的方式改变了人们的沟通模式和交流方式,为人们提供了更加广阔、自由的平台。社交网络的言论自由提高了人们对公众事件参与度,加深了社会信息透明度,拉近了人与人的距离,而人们发布的观点和看法使得社交网络成为了反映社会舆论和民情民意的主要战场。此时,各类信息迅速发酵,形成网络舆情。社交网络信息来源较为复杂,造谣成本也较为低廉。舆情传播速度之快,扩散
现代河口三角洲地区是海陆交互作用最为强烈和敏感的地区之一,通常其保存了相对较完整的海平面变化、气候变化及河流变迁历史等信息。辽河三角洲是由辽河、大辽河以及大凌河等多条入海河流共同加积而成,位于东亚夏季季风区的北缘,是气候变化敏感区。通过对辽河三角洲地区沉积物中化学成分和矿物成分特征进行研究,可以为确定物源、评价古气候环境提供依据,从而可以深入认识全新世以来的渤海演化史,为分析和预测未来的气候环境变
目的:本研究选择数据共享相对成熟、共享需求和价值显著的肿瘤临床数据,作为慢性病代表分析临床数据共享伦理共性问题;比较中美临床数据共享的政策法律法规和共享平台共享实践方面的异同,为促进我国的临床数据共享提供参考。方法:本研究通过文献调研并结合理论分析以肿瘤为代表的慢性疾病临床数据资源共享的伦理共性问题。通过关键词频次分析提取伦理问题,并从文献探究中美数据共享的潜在伦理管理、实践体系;调研并选取近年来
深部高应力软岩巷道掘进开采之后,在垂直应力和水平应力的耦合作用下,会产生应力重分布,变形破坏难以控制,在高应力软岩巷道环境下研究围岩破碎机理及设计支护方案对于保障深部复杂地质环境下的巷道围岩稳定具有十分重要的意义。本文以赤峪矿为工程研究背景,综合使用理论分析、数值模拟及现场监测等手段进行深入研究。首先通过理论分析的方法研究了高应力深部巷道围岩变形破碎机理,进行了地应力的判定以及寻找导致巷道产生失稳
基因工程的发展,遗传密码的成功破译,让人们认识到许多疾病的发生都与基因密切相关。生殖系基因编辑的发展,开启了人类治疗疾病和追求健康长寿的新通道。技术的巨大潜能在人们逐利的当下,如果缺乏伦理和道德的约束,其发展和使用有可能会偏离正确的轨道,甚至造成灾难性的后果。通过对技术发展产生的伦理和社会问题进行研究,从道德约束的角度化解当下的伦理困境,明晰技术发展的道德和伦理边界,对科研人员进行社会主义核心价值
细胞片层工程是在无支架的条件下构建三维组织,避免了传统组织工程中因支架降解问题带来的诸多不足。目前,细胞层的获得主要是利用聚(N-异丙基丙烯酰胺)(pNIPAAm)材料在水溶
针对油田采出水经纳滤处理的浓水软化中的树脂再生问题,以冷冻母液为潜在再生剂,系统开展了不同冷冻母液空床滤速及水质组成条件下的逆流再生中试研究,确定了最优的母液再生