基于Logistic回归惩罚函数的遗传位点分析

来源 :计算机时代 | 被引量 : 0次 | 上传用户:huhu029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  DOI:10.16644/j.cnki.cn33-1094/tp.2021.11.003
  摘  要: 探讨将基于惩罚函数的变量选择方法应用到遗传位点分析。以2016年9月16日的全国研究生数学建模竞赛B题的数据为例,首先对每个位点的碱基对(A、T、C、G)编码方式数值化处理,最后用数值化后的数据进行建模,并将单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与遗传性疾病显著相关的遗传位点,分别与出题者提供的标准答案进行对比,结果显示双层变量选择Logistic cMCP模型能够准确的定位到与遗传性疾病显著相关的遗传位点。因此将其运用到具有遗传性疾病和性状的遗传位点分析是值得研究的。
  关键词: Logistic回归; 惩罚函数; cMCP; 遗传位点
  中图分类号:O          文献标识码:A     文章编号:1006-8228(2021)11-09-03
  Genetic locus analysis based on penalty function in Logistic regression
  Zhuang Hongli
  (JINSHAN College of  Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China)
  Abstract: Discuss the application of the penalty function based variable selection method in genetic locus analysis. Taking the data of question B of the National Graduate Mathematical Modeling Competition on September 16, 2016 as an example, the base pair (A, T, C, G) coding method of each site is numerically processed, and modeling with final numerically processed data, the univariate selection Logistic SCAD, the group variable selection Logistic Group SCAD model, and the two-layer variable selection Logistic cMCP model are located to genetic sites that are significantly related to genetic diseases, and compare with the standard answers provided by the questioner. The results show that the two-layer variable selection Logistic cMCP model can accurately locate genetic sites that are significantly related to genetic diseases. Therefore, applying it to the analysis of genetic locus with genetic diseases and traits is worth studying.
  Key words: Logistic regression; penalty function; cMCP; genetic locus
  0 引言
  人體中携带的DNA是人的遗传密码的载体。DNA由分别带有A,T,C,G四种碱基的脱氧核苷酸链接组成的双螺旋长链分子,基因则是DNA长链中有遗传效应的一些片段,在这些片段中有一些特定位置的单个核苷酸经常发生变异引起DNA的多态性,我们称之为位点[1]。通过大量研究表明,人体的许多表现型性状差异以及对药物或者是否患病等都可能与某些位点相关联或多个位点的基因相关联。常用的统计方法多要求样本量要远大于变量数,而在基因数据中解释变量的维数往往远大于样本量即“大[p]小[n]”数据,导致传统的统计方法不再适用。
  基于惩罚函数的变量选择是在线性回归模型的参数估计中,在原有的最小二乘或极大似然函数的基础上加入惩罚函数项得到新的惩罚目标函数[2],从而实现变量选择和参数估计。惩罚函数的变量选择方法的优点在于:能同时实现变量选择和参数估计,从而计算效率高,而且当[p?n]时,均保持优良的性质。目前已有成青(2014)在“大[p]小[n]”的基因数据上应用岭回归、LASSO以及弹性网分析了数据的稀疏性[3]。本文将惩罚函数的单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与遗传性疾病显著相关的遗传位点。
  1 惩罚函数的变量选择[2]
  1.1 Logistic回归模型
  对于普通线性回归的Logistic模型,条件概率可表示为:
  其中[X]为解释变量;[y]为响应变量;成功概率[p=p1,p2,…,pnT],[pi]是指取第[i]次观测值时因变量为1的概率;[β0]为截距,[β]为解释变量的系数向量。   Logistic回归分析通常通过最大似然法实现参数估计,最大似然函数:
  在似然函数中加入不同惩罚项,就得到不同的惩罚函数的变量选择方法。
  1.2 单变量选择LogisticSCAD
  SCAD是由Fan和Li[4]提出的一种在Lasso基础上发展的非凹的惩罚函数,是实现单个变量选择方法。将SCAD加载到Logistic模型中,就得到LogisticSCAD。
  其中[ptβj]是SCAD的惩罚项,定义如下:
  其中[t>0]为罚参数,[α>2]为调整参数。
  1.3 组变量选择Logistic Group SCAD
  Wang等[5]提出了Group SCAD惩罚的方法,将Group SCAD加载到Logistic模型中,就得到Logistic Group SCAD。
  其中[pt]是SCAD的惩罚项。这里提到的惩罚项都是[L2]的惩罚项,组间可以进行变量选择,组内不可以进行变量选择。
  1.4 双层变量选择Logistic cMCP
  组变量选择的时候具有“All-In, All-Out”的特点。而双层变量选择方法对其进行改进,使之既能在选择组变量的同时对组内变量进行选择。
  在Huang等[6]和Liu等[7]中提出了复合MCP (composite MCP,cMCP)惩罚的方法,将cMCP加载到Logistic模型中,就得到Logistic cMCP。
  2 数据预处理
  本文数据来源于2016年9月16日的全国研究生数学建模竞赛B题。数据是针对某种遗传疾病,提供了1000个样本信息,包括是否患病信息(0表示正常,1表示患病),每个样本均包含9445个位点的编码信息,以及其对应的基因信息。竞赛题目要求:首先对每个位点的碱基(A、T、C、G)编码方式数值化处理,最后用数值化后的数据定位到与该疾病最有可能的一个或多个致病位点。
  采用碱基(A、T、C、G)的编码方式获取每个样本每个位點的信息,每个位置只有三种编码方式。如在位点rs100015位置,不同样本的编码都是T和C的组合,有三种编码方式TT、TC和CC,因此采用三个不同的数字进行数值化,即将TT数值化为1,TC数值化为0,CC数值化为-1,将9445个位点做同样的处理。该数值化方法符合杂合子为0,纯合子为1或-1的遗传生物学的背景,该数值化方法是合理的。
  3 结果分析
  由于提供的数据集中响应变量是0或1,符合Logistic模型,现对Logistic模型实现变量选择。数据集中包含9445个位点(解释变量),1000个样本,典型的“大[p]小[n]”,传统的方法失效。庄虹莉等人详细研究了惩罚函数的变量选择应用到Logistic模型实现变量选择的可行性[8],且精度较高。因此,本文直接将惩罚函数的Logistic模型应用于定位与该疾病最有可能的一个或多个致病位点。
  由于Logistic Group SCAD和Logistic cMCP惩罚函数变量选择方法是组变量的选择,因此需对解释变量进行分组,本文通过位点所在的基因片段进行分组,即将解释变量分成300组。
  将惩罚函数单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与该遗传性疾病显著相关的遗传位点,并得到相应的效应估计值(参数估计)和显著性检验。详细见表1。
  对表1进行分析,得到Logistic cMCP的效果较Logistic SCAD和Logistic Group SCAD更好。
  ⑴ Logistic SCAD模型的[p<2.19×10-8],Logistic Group SCAD模型的[p<2.19×10-8],,Logistic cMCP模型的[p<2.2×10-16],均通过检验,说明惩罚函数的变量选择应用到Logistic模型实现与该疾病最有可能的一个或多个致病位点的定位具有可行性。
  ⑵ 针对出题者给出的rs2273298位点是该疾病最有可能的一个致病位点,三种方法均定位到了这个位点,但是Logistic SCAD多定位14个位点,Logistic Group SCAD多定位到8个位点,Logistic cMCP多定位到5个位点,而Logistic cMCP将最少的不显著变量选入模型,模型的复杂度较小,因此cMCP-L是效果最好,而多定位的5个位点可能也是后期研究该疾病致病的可能因素。
  4 总结
  本文将基于惩罚函数的变量选择方法应用到遗传位点分析。以2016年9月16日的全国研究生数学建模竞赛B题的数据为例,考虑到给定的样本数据是典型的“大[p]小[n]”,传统方法失效,而惩罚函数的变量选择可以很好的处理这类数据,实现SNP致病位点的识别,且结构更加精简,预测精度和稳健性能提升。因此本文将单变量选择Logistic SCAD、组变量选择Logistic Group SCAD模型和双层变量选择Logistic cMCP模型定位到与遗传性疾病显著相关的遗传位点,均与出题者提供的标准答案进行对比,结果显示Logistic cMCP模型能够准确的定位到与遗传性疾病显著相关的遗传位点,模型的复杂度更小,计算效率较高。但本文仅分析建模的数据,该数据噪音较小,下一步将惩罚函数的变量选择方法应用于实际实验数据研究。并且基于惩罚函数的双层变量选择方法对于具有组效应的高维问题可以进行有效地处理,这为大数据时代下的高维数据处理奠定了基础。
  参考文献(References):
  [1] 潘东东,李正帮,张维等.全基因组关联研究综述[J].应用概
  率统计,2014.1:84-103
  [2] 姜叶飞.惩罚变量选择方法比较分析及其在信用卡信用风
  险中的应用[D].厦门大学,2014.
  [3] 成青.高维基因数据中的变量选择[D].西南交通大学,2014.
  [4] Fan J, Li R. Variable Selection via Nonconcave Penalized
  Likelihood and its Oracle Properties[J]. Journal of the American Statistical Association,2001.96(456)1348-1360
  [5] Wang L, Chen G, Li H. Group SCAD regression analysis
  for microarray time course gene expression data.[J]. Bioinformatics,2007.23(12):1486-1494
  [6] Huang J, Breheny P, Ma S. A Selective Review of Group
  Selection in High-Dimensional Models[J]. Statistical Science A Review Journal of the Institute of Mathematical Statistics,2012.27(4):481-499
  [7] Liu J, Huang J, Ma S. Integrative Analysis of Multiple
  Cancer Prognosis Datasets Under the Heterogeneity Model[M].Topics in Applied Statistics. Springer New York,2013:3509-3521
  [8] 庄虹莉,李立婷,林雨婷,温永仙.基于Logistic回归惩罚函数
  的疾病诊断[J].中国卫生统计,2017.34(1):139-143
其他文献
在不带有标志帧的手势视频上进行动态手势识别,容易导致识别准确率下降。提出一种具有分级网络结构的动态手势识别模型。以手势检测模型为第1级网络,手势分类模型为第2级网络,分步完成识别任务。同时,将三维卷积核拆分为时间域和空间域卷积分阶段完成任务,解决三维卷积神经网络中因参数过多造成模型训练或运行时间过长的问题。实验结果表明,在保证实时性的前提下,该模型在EgoGesture数据集上的识别准确率高达93
基于深度学习的图像复制-粘贴篡改检测方法在特征提取过程中未考虑特征的空间排列,在小区域篡改样本下检测性能不佳。基于可形变自相关网络提出一种图像篡改检测方法。通过引入可形变卷积和多尺度空间金字塔,自适应地学习篡改目标的空间形变,同时通过构造自相关金字塔式特征层次结构,融合全局特征和局部特征以提升图像篡改检测性能。实验结果表明,该方法在公开的图像篡改检测基准上各项评测指标均优于对比方法,其精确率、召回
针对复杂背景下服装图像局部区域风格迁移难以控制及迁移后容易产生边界伪影的问题,提出一种基于注意力机制的CycleGAN服装局部风格迁移方法。通过VGG16网络分别提取服装图像的内容特征与风格特征,将其输入基于注意力机制的CycleGAN生成器中,应用注意力机制在复杂背景下的各个服装区域分配概率分布信息,获得注意力分布更多的区域及相关度更高的区域,并采用改进的损失函数校正边界伪影,对该区域进行风格迁
针对复杂遮挡条件下人脸检测精度低的问题,提出一种基于掩膜生成网络(MGN)的遮挡人脸检测方法。对人脸训练集进行预处理,将训练人脸划分为25个子区域,并为每个子区域分别添加遮挡。将一系列添加遮挡的人脸图像和原始人脸图像作为图像对依次输入MGN进行训练,以生成对应各个遮挡子区域的遮挡掩膜字典。通过组合相关字典项生成与检测人脸遮挡区域相对应的组合特征掩膜,并将该组合特征掩膜与检测人脸深层特征图相点乘,以
人脸检测技术作为一种人员身份识别的主流技术被广泛应用于人们的日常生活中。然而在特定应用场景中,当人脸被遮挡或人脸目标非常密集时,人脸识别的检测性能急剧下降。提出一种基于深度残差网络和注意力机制的高精度人脸检测算法。使用残差网络ResNet-50并结合IoU损失函数提高人脸检测精度,并利用注意力机制优化突出脸部区域特征,在此基础上采用非极大值抑制方法增强算法鲁棒性。在公开FDDB数据集上的实验结果表
在实际条件下,苹果叶片病害图像背景复杂且病斑较小,难以进行实时检测。针对该问题,提出一种改进的Faster R_CNN模型。通过特征金字塔网络将具有细节信息的浅层特征和具有语义信息的深层特征融合,以提取丰富的苹果叶片病害特征。同时采用精确感兴趣区域池化,避免感兴趣区域池化中2次量化操作对病斑较小的苹果叶片病害造成像素偏差。实验结果表明,该模型能对自然条件下5种苹果叶片病害进行有效检测,平均精度均值
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之
传统卷积神经网络存在卷积核单一、网络结构复杂和参数冗余的问题。提出一种轻量级特征融合卷积神经网络MS-FNet。在融合模块中采用多路结构以增加卷积神经网络的宽度,通过不同尺寸的卷积核对输入特征图进行处理,提高网络在同一层中提取不同特征的能力,并在每次卷积后采用批归一化、ReLU等方法去除冗余特征。此外,使用卷积层代替传统的全连接层,从而加快模型的训练速度,缓解因参数过多造成的过拟合现象。实验结果表
随着国产计算机的推广应用,原X86平台开发的软件经常面临国产化平台适配的需求,且要求适配后的功能、性能不降低。以大批量实时图像渲染类的应用为例,性能问题是国产化平台适配时经常遇到的难题。文章以主流的国产软硬件平台为研究基准,以对比实验形式论证了基于QtOpenGL的实时渲染软件国产化适配性能优化的关键技术点及解决方法。提出了六条切实可行的显示性能优化技术途径,这些成果对于基于QtOpenGL的国产