基于深度学习的高性能蛋白组学谱图数据分析模型

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chao120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白组学被广泛应用于生物医学领域,如病理机制研究、疾病特异性标记物发现和低丰度蛋白检测等。谱图库搜索和蛋白组学谱图聚类是基于质谱的蛋白组学数据分析方法的重要组成,其核心计算模块包括谱图特征提取和相似性计算。基于深度学习的DLEAMSE方法能够有效提取出可信的谱图特征并降维,但仍面临谱图大数据带来的计算性能瓶颈,且基于DLEAMSE的谱图库搜索方法(MSLOOKUP)也存在重复建库和搜索性能不足的问题;在现有的谱图聚类方法中,普遍使用高维向量进行相似距离计算,同样存在运行时间长、内存占用率高等问题。谱图数据分析方法及其应用在计算性能上的上述不足,严重限制其挖掘生物学知识的能力。针对上述问题,本文进行了以下研究:1.基于DLEAMSE,提出高性能蛋白组学谱图数据嵌入模型(HP-DLEAMSE)。在计算性能方面,充分利用多核CPU和GPU的并行计算优势,在不降低谱图特征提取性能的同时,设计并行算法建立HP-DLEAMSE。该模型在大规模谱图测试数据集(>1,000,000)上的整体运行时间降低84.826%,并显示出较好的可扩展性。在特征提取性能方面,选用特定物种(拟南芥)数据构建了专用模型,并评估其在谱图库搜索上的性能。当距离范围为[1-0.95]时,专用模型仍有98.8%的正确率,高于普通模型(90.039%)。这表明专用模型在特征提取上具有更高的正确率和稳定性。2.针对基于暴力搜索机制的MS-LOOKUP方法中重复建库和搜索性能不足的问题,提出将HP-DLEAMSE和Faiss框架(非精确索引+范围搜索模式)相结合的高性能蛋白组学谱图库搜索方法(MS-Search)。MS-Search实现了谱图库的高性能构建和搜索,以及谱图库的增量式更新。实验表明,在不同尺度数据集上,MSSearch相较于MS-LOOKUP,整体运行时间最多降低90.067%。3.针对当前谱图聚类方法在计算性能上的不足,本文结合HP-DLEAMSE和Faiss高效索引,提出了高性能谱图聚类方法(HP-Cluster)。HP-Cluster实现了对谱图数据的高性能聚类和代表谱图的生成。在谱图簇错误率和有效聚类占比两个指标上,HP-Cluster与主流工具(spectra-cluster和Ma Ra Cluster)之间的差异不足2%,但HP-Cluster的聚类运行时间最大降低近93%。4.基于Python Click命令行工具包对MS-Search和HP-Cluster进行封装,开发了谱图库构建、谱图库搜索、谱图聚类以及代表谱图生成等本地工具。
其他文献
A公司是生产航空航天用高强度铝合金板的企业。A公司成立几年来,随着设备产能的逐步释放,公司对设备的可靠性要求越来越高,生产活动和维修活动中存在的一些矛盾开始凸显。本文通过研究设备可靠性理论和“零故障”维修管理理论,针对生产和维修活动中的矛盾点进行分析,以期进一步完善A公司的维修管理体系。本文通过整理往年的维修数据,对一线员工日常工作内容按照维修模式进行分类和统计分析,然后经过数据分析和对比欧美先进
跨国公司是现代企业向国际化方向发展的必然结果,是全球企业为了适应日益复杂的生产技术和国际交流而进行的一种经营模式。在全球经济一体化的背景下,跨国公司在全球经济中的地位与作用日益凸显。如今跨国公司在中国的业务发展中,越来越感受到竞争的无奈和发展的瓶颈,并缺乏有效的突破策略,逐渐限制自身长远发展,亟待谋求破局之路。文章从多角度系统性地分析了跨国公司在中国发展业务时面对的几个关键挑战,并提出了应对的策略
近二十年来我国老旧厂房越来越多地更新改造为文化创意空间,相关支撑性政策的出台为助推这种发展态势做出了重要规范和引导。本文聚焦北京,以老旧厂房改造的57家市级文化产业园为例,通过梳理市区等各级关联政策的出台状况及演进特征、分析园区数据与历年文化企业注册信息等方法,探讨政策建设对北京市老旧厂房拓展文化创意空间形成的影响,并结合相关经验得失提出优化完善政策体系的下一步关键工作领域。
<正>北京市朝阳区实验小学非常注重班主任队伍建设,一代又一代教育工作者孜孜以求,潜心探索,构建起远近闻名的"幸福教育"品牌:全国闻名的"马芯兰教学法"从这里发端,"空中课堂"在这里开启,数字化校园从这里推广,多彩课程在这里精彩绽放……在"自主成长,自我管理"的管理理念引领下,学校创设各种条件,为班主任个性化专业发展搭台铺路,鼓励班主任形成自己的管理特色。近年来,学校多名教师先后获得北京市"紫禁杯"
期刊
随着人口老龄化的进程不断加剧,养老问题已成为保障民生、促进社会稳定发展的重要问题,养老金产品在老年社会保障体系中的重要作用日益凸显。养老金计划涉及缴费与给付的跨时期精算关联,混合型养老金计划有效兼顾了计划灵活性、给付保障性、风险共享性等多种优势,具有极好的发展前景。养老金产品的价格即最初为了进入养老金计划所需要缴纳的费用,深入研究混合型养老金产品如何精准及快速的定价有利于更加深刻地理解其背后的运行
从维护市场经济、保护企业利益的政策出发,在刑事法制中构建对犯罪嫌疑单位的附条件不起诉制度是一个必要、积极的制度选择。构建这一制度,可以从实体法根据、检察权根据和刑事法制与公司企业制度关系三个维度进行论证。这一制度的实施,由检察机关行使附条件不起诉决定权,由行政主管部门委派工作人员进行监督考察,通过促进企业合规建设进行整改,以实现企业守法地从事经济活动。构建这一制度应秉持"法治一体化"的设计理念,将
单位犯罪量刑问题是实践中亟待解决的难题,对单位的刑事责任追究包括量刑应区别于单位中自然人。在刑事司法中,对自然人刑事责任追究与对单位刑事责任追究应由"捆绑"模式转为"平行"模式。对单位的量刑应当与单位的刑事责任予以统一考察,从单位作为组织体的特点进行分析。对单位的不起诉制度的完善,应在现有法律框架内根据单位的特点进行相应的制度设计。
目前,缺氧(预脱硝)-厌氧-缺氧-好氧(A~3/O)工艺和移动床生物膜反应器(MBBR)已经广泛应用于污水处理领域,可以进行组合运用。本文以我国北方某农村污水处理工程为例,分析了A~3/O+MBBR污水处理站在冬季低温条件下的处理效果及运行成本。冬季运行期间,出水化学需氧量(COD)、悬浮物(SS)、氨氮(NH3-N)、总氮(TN)与总磷(TP)的均值分别为27.67 mg/L、7.16 mg/L
绘本是通过文字和图画两个媒介的有机结合,共同描绘生动故事的文学艺术,图画和文字不可分割,各为主体,共同承担着抒发情感和意义的责任。绘本阅读教学在小学低段教学中的应用越来越广泛,但是部分教师和家长都未重视绘本所带来的价值,一些教师在选材、观念上存在着一定误区。绘本阅读多元化教学可以凸显小学低段学生的主体地位,拉近学生对母语的亲近距离,同时还有利于学生智力的全面发展。绘本阅读多元化教学可以通过多元视角