基于机器学习的自发性早产生物标记物发现

来源 :南京大学学报(自然科学) | 被引量 : 0次 | 上传用户:fushu1qq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于基因表达微阵列数据的生物标记物示性基因的识别在生物信息学领域备受关注.自发性早产(Spontaneous Preterm Birth,SPTB)生物标记物的成功鉴定有利于降低孕妇早产的风险,具有重要的研究价值.提出一种从公开基因表达数据中识别SPTB生物标记物的方法.首先,从公开数据库下载SPTB的基因表达数据,运用支持向量机-递归特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)进行基因特征选择,并与其他机器学习与特征选择方法(AdaBoost-RFE,Neural Network-RFE,Radom Forest-RFE和K-Nearest Neighbor-RFE)进行比较,利用准确性、精确度、灵敏度、特异度、F-测度和AUC等指标,对分类效果进行评价.然后,将SVM-RFE排名靠前的基因与其他方法排名靠前的基因取交集,以此作为识别出的SPTB生物标记物.接着,通过聚类分析、相关性分析和功能富集分析对识别的生物标记物进行初步的鉴定.最后,构建SVM分类器,在独立数据集上对所识别的生物标记物进行验证.结果 表明,提出的机器学习方法对于SPTB生物标记物的发现是有效的.该方法能在孕妇产前无创检测患有SPTB的可能,减少对人工鉴别的依赖,降低孕妇早产风险.
其他文献
从监测端挖掘多监测站点间电磁信息隐含的时空关联对掌握电磁频谱资源分布和使用状况、支撑电磁频谱资源精细化管理具有重要意义.目前的方法孤立地对各监测站点采集的海量数据进行预测分析,没有有效挖掘多个站点间的电磁信息变化规律,没有考虑人类活动规律的周期性,更难以利用站点间的时域、空域关联给出多站点的电磁强度信息联合预测,不能结合GIS系统给出直观、实时可视化的频谱态势地图.针对以上问题,将多个监测站点建模为图结构,提出一种基于多站点、多时间注意力机制的图神经网络MMGCN (Multi-site and Mult
从分子水平、细胞水平、蛋白水平对不同剂量丙烯酰胺诱导的小鼠肠道屏障损伤进行评估.通过不同浓度下丙烯酰胺小鼠染毒模型,观察了丙烯酰胺剂量与肠道屏障损伤的关系,结果表明10~30 mg?kg-1?bw剂量范围内丙烯酰胺连续灌胃30天均会对小鼠小肠屏障造成不同程度的损伤.此研究为丙烯酰胺的日常防控、生产抑制和膳食预防提供了理论基础和研究依据.
通过引入BERT(Bidirectional Encoder Representation from Transformers)词向量和胶囊神经网络架构,建立期刊文本自动分类模型.选取三个不同规模的Web of Science数据集,以期刊领域的文本分类作为研究任务.在分析文本的基础上,对论文摘要进行多种深度学习算法训练.利用向量化的胶囊神经元和动态路由机制获取文本的局部-整体关系,最终实现更加精准的文本分类模型.实验结果表明,在该数据集上,基于胶囊神经网络的文本分类器的准确率、精准率、召回率和F1值等多
针对传统检测算法主要面向会话级别的粗颗粒度日志异常检测,而无法完成日志级别的细颗粒度检测问题,提出一种基于注意力机制的日志级别异常检测算法.首先,使用基于模版的方法提取日志的所属事件类型,通过滑动窗口的方法获得日志序列.接着,将日志序列输入基于注意力机制的生成对抗网络,生成器负责生成该序列后续正常事件的分布,判别器用于判别输入的正常事件分布是由生成器生成的还是真实发生的,两者通过不断的博弈相互提升,最终通过对比生成器生成的后续正常事件和真实发生的后续事件是否一致来判断该日志事件是否异常.实验在开源数据集B
采用Pacbio三代和Illumina二代测序技术对不同温度(15℃,20℃,25℃,30℃,33℃)条件下养殖的30月龄池蝶蚌性腺组织进行转录组分析.通过差异分析获得各个温度下雌雄对比组的差异基因,数量分别为6311,3013,6673,6798和5685个.其中在20℃和33℃下差异基因数量最少.差异表达基KEGG富集显示,25℃条件下出现卵母细胞的有丝分裂,细胞周期和notch信号通路等雌性相关活动.对五个温度处理组之间的差异表达基因进行组间比较,发现含有802个共同表达差异的基因,其中鉴定到wnt
随着声学技术的广泛应用和不断发展,多种类型的工作标准传声器(简称:传声器)大量出现.受制于传感器结构、原理和尺寸的不同,静电激励器法和耦合腔比较法并不能完全满足校准需求,因此自由场比较法在校准中得到使用.为满足低频校准的需求,需要使用截止频率较低的大尺寸自由场空间.虽然大尺寸自由场空间的用途广泛,但是带来了声源、参考传声器和被校传声器的快速定位问题.实践证明位置定位准确性是影响校准重复性和不确定度的重要因素.提出一种采用激光定位设备在大尺寸自由场空间快速进行传声器自由场比较法校准的解决方案.该解决方案具有
区域水资源承载力状态评价对于查明区域水资源现状从而保障区域社会、经济发展具有十分重要的意义.为科学、合理地评价区域水资源承载力状况,提出水资源承载力综合评价的组合权重-MNCM (Multidimensional Normal Cloud Model)法.首先,改进AGA-AHP(Accelerating Genetic Algorithm based Analytic Hierarchy Process)法以优化专家评价矩阵并确定主观权重,运用熵权法确定客观权重,应用组合权重公式得到评价指标的组合权重;
近年来,基于协方差矩阵重构的自适应波束形成技术一定程度上避免了期望信号出现“自消”的现象,然而当相干干扰与导向矢量误差同时存在时,现有的重构类波束形成器对干扰的抑制能力较差.针对该问题,提出一种基于干扰不确定集的空域扇区重构自适应波束形成算法,该算法适用于任意阵型.首先使用迭代自适应估计的方法拟合解相干的样本协方差矩阵,再使用传统的空域扇区重构方式,将估计的空间谱在干扰导向矢量不确定集上进行积分,重构干扰加噪声协方差矩阵,最后通过同样的方式重构期望信号协方差矩阵,并将其最大特征值对应的特征向量作为期望信号
近年来,推荐系统的实用价值越来越高,良好的推荐算法可以给用户提供好的用户体验效果,然而随着信息化的不断增长,信息过载问题变得越来越突出,用户懒于对物品评分已经成为习惯.怎样向这些特定用户群体提供好的推荐算法、提高推荐质量已经成为现在的热门问题.为了更好地推动推荐系统的发展,解决这些特定用户群体的评分稀疏问题,提出一种受约束的贝叶斯概率矩阵分解算法.该算法针对特定的评分稀疏用户引入一种潜在的相似度约束矩阵来影响用户的特征向量,并结合最大后验概率(Maximum A Posteriori,MAP)估计和蒙特卡
随着5G/B5G的不断发展,无人机在实时数据采集系统中将有广泛应用.利用无人机先给传感器节点进行无线充电,然后传感器节点利用收集到的能量将感知的信息上传无人机,可有效解决户外物联网节点的供电与数据采集问题.然而,由于无人机本身的电量受限,如何在保证无人机充电辅助物联网系统顺利完成新鲜数据采集任务的前提下最小化无人机的能耗至关重要.为此,在满足信息采集新鲜度的要求下,通过联合优化无人机的飞行时间、加速度、转角和传感器节点信息上传和能量收集调度模式,建立无人机能耗最小化优化问题.由于该问题含有整数变量,大规模