基因组学数据缺失与不平衡问题的处理方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:junemeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序技术的发展和人们对精准医学认知的加深,基因组学数据呈现爆发式增长。受到样本来源与质量、实验方法与操作、文库质量与序列特征等混杂因素的影响,基因组学数据具有有效样本量小且不完整性高、系统误差来源广泛且难以消除、样本类型多样且比例失衡等特点,须采用合适的处理方法保障数据分析结论的准确性。现有方法在处理以下问题时存在不足:(1)处理数据缺失问题时,实际数据中的零值包含具有生物学意义的真零和技术误差导致的假零,已有插补方法难以兼顾缺失数据的生物学意义、插补准确性与处理运行速度;(2)处理数据不平衡问题时,低测序深度、高分辨率要求和单细胞测序等特殊应用场景使现实数据具有高稀疏度特性,已有处理方法不能解决此类数据的标准化问题;(3)处理样本不平衡问题时,部分真实数据具有高维性与异构性特征,单一固定的应对策略无法满足数据特征差异导致的多样化需求。针对上述问题,分别在单细胞转录组学、三维基因组学和宏基因组学中进行了实例研究。针对单细胞转录组学数据缺失问题,提出了一种基于细胞类群基因表达关联性的数据插补方法FRMC。FRMC首先基于细胞的Jaccard相似系数评估相似细胞集并预判表达矩阵中的真零与假零,然后基于低秩矩阵恢复的优化模型插补假零,引入拉格朗日乘子将带等式约束的矩阵优化问题转化为无约束优化问题,最后使用奇异值阈值迭代方法求最优解。在五组真实单细胞数据集中进行的性能评估实验结果表明,FRMC能够有效插补不同实验规程与细胞规模的数据集。从插补准确性维度评估,FRMC不仅能正确地分辨真零和假零并准确地进行插补,而且与其他四种插补方法相比误差更低,标准化均方根误差为0.522,说明FRMC插补后的数据矩阵更接近真实的原始矩阵。生物学验证结果表明,FRMC能有效增强细胞内联系与基因间联系,并有助于实现细胞的准确聚类。运行性能方面,在相同条件下,FRMC的运行速度相比2DImpute至少提升8.7倍。针对三维基因组学研究中高通量染色体构象捕获(high-through chromosome conformation capture,Hi-C)技术产生的接触矩阵数据不平衡问题,提出了一种基于基因组区域相等可见性的数据标准化方法HCMB。HCMB将矩阵标准化问题转化为矩阵平衡问题,再利用Hi-C原始矩阵的对称特性将其转化为非线性方程的求解,然后引入Levenberg-Marquardt迭代方程解决该问题,可在收敛过程中保持迭代方程组系数矩阵稠密度,同时结合线搜索策略与非负象限投影方法求解转换后的非线性方程获得缩放因子向量,从而解决包括高稀疏性矩阵在内的Hi-C数据不平衡问题。在四组模拟数据集和四组真实Hi-C数据集中进行的相关实验结果表明,HCMB标准化后的矩阵结果与Knight-Ruiz方法一致,能够消除影响A/B区室识别、拓扑结构域鉴定和P(s)曲线绘制的生物学信号的偏倚。此外,HCMB能够快速求解Knight-Ruiz方法无法处理的高稀疏度Hi-C接触矩阵,且具有高收敛率与更稳定的运行性能,在不同稀疏度与分布特征的Hi-C数据中迭代次数稳定为5次。针对宏基因组学研究中不平衡样本的分类预测问题,提出了一种面向宏基因组学数据高维性的分类策略选择方法MCMLI。MCMLI在对宏基因组序列数据进行预处理后,采用最大相关与最小冗余方法进行特征选择并构建不同特征数量的特征子集,引入两类重采样技术解决样本不平衡问题,同时引入七种机器学习算法进行分类预测,将不同特征子集、重采样与分类方法交叉组合形成多条处理路径,最后利用五倍交叉验证方法评估最佳策略,从而实现多组别不平衡样本分类的策略优化。在包含多种表型且样本比例不平衡的公共宏基因组数据集中进行验证,MCMLI评估出的最佳策略为使用SMOTEENN综合采样技术平衡各组样本例数,结合逻辑回归算法创建多分类预测模型,模型预测结果的F1分值为0.9142,平均接收者操作特征曲线下面积为0.9475,性能优于其他组合策略。本研究在三个实例中针对基因组学数据缺失与不平衡问题提出相应处理方法,旨在提高基因组学数据分析结论的准确性,为研究者结合自身分析需求选择合适的数据处理方法提供更多参考,同时为后续研究提供方法基础与理论依据。
其他文献
小学阶段,教师在进行数学学科教学时,受传统教学观念影响,教学内容具有局限性和浅表性,导致学生学习深度不够,无法达到深度教学的效果。新时期,教师在开展数学学科教学时,要合理应用数形结合方法,将数形结合思想渗透到教学过程中,以此实现数量关系与空间形式的结合,帮助学生较好地分析、解决数学问题,这也是该学科教学的基础性内容,对学生自主发现、解决问题较为有利。
信息时代下家长面对婴幼儿使用电子产品常陷入窘境,为促进婴幼儿健康成长和广大家庭和谐幸福。研究者自编问卷对浙江金华396位0—6岁婴幼儿家长进行问卷调查。结果发现:家长对婴幼儿使用电子产品的认知不足;家长未能合理利用电子产品各项功能;家长缺乏指导意识和方法。并对此给家长提出相应对策。
“新工笔”作为传统工笔的创新,自21世纪以来,在中国画研究领域热度不减。作为“新工笔”创新的主要美学来源之一,超现实主义绘画理念以构图的反逻辑、空间的混维、情感的深层隐喻表达给予了大批工笔画家灵感。该文从“新工笔”的构图、空间、情感等绘画语言方面分析“新工笔”创作对西方超现实主义绘画理念的借鉴,概括其实践应用,通过对西方超现实主义画家与当代“新工笔”画家之间的对比,总结归纳出当代“新工笔”中非逻辑
信息技术的迅速发展为教育领域的发展带来新的机遇。新课改背景下,利用信息技术创新教学模式,可以吸引学生的注意力,并提高课堂教学成效。借助信息技术贯彻“双减”政策是现阶段教师日常的工作任务,教师需将多重课程资源融为一体,给予学生多感官体验,促使语文课堂充满活力,优化教学方法,提高教学能力,以保证语文教学有序开展。文章尝试分析信息技术在小学语文教学中的应用价值,归纳信息技术的应用现状,优化小学语文教学中
目的 探讨单纯性肾囊肿患者采用后腹腔镜肾囊肿穿刺硬化联合去顶术的临床疗效及安全性。方法 选取2019年9月至2020年9月遵义医科大学第五附属(珠海)医院收治的60例单纯性肾囊肿患者为研究对象,采用随机数字表法将其分为对照组(n=30)和观察组(n=30)。对照组患者行后腹腔镜肾囊肿去顶术干预,观察组患者行后腹腔镜肾囊肿穿刺硬化联合去顶术干预。两组患者均观察6个月。比较两组患者的治疗总有效率以及术
<正>民族舞历史悠久,底蕴深厚,在受众中拥有较强的影响力,而现代舞朝气蓬勃,形式富于变化,明显更受年轻人的喜爱。结合两者的优势并进行创新,对舞蹈的发展具有重要意义。为适应新时代背景下受众多变的舞蹈审美需求,我们需要及时地调整自己的审美理念,通过分析把握民族舞蹈和现代舞之间的差异,以现代舞的优势促进传统舞蹈的进步,增强传统民族舞蹈的活力。民族舞和现代舞属于不同种类的舞蹈艺术。民族舞民族风情浓郁,但表
期刊
要素集聚是城市群发展的必然规律,也是促进城际经济互动和资源优化配置的重要途径。本文从经济要素、金融要素、人口要素等维度构建了要素集聚评价体系,运用引力模型和社会网络分析,探究2006—2018年京津冀城市群要素集聚网络的结构特征、演化趋势及形成机制。结果表明:(1)随着京津冀协同发展的纵深推进,要素集聚的空间关联特征明显,网络密度持续提升且中心势持续降低,网络结构日益紧密。(2)北京、天津、石家庄
自二十世纪末我国引入PPP模式以来,PPP模式在我国公共场合和公共服务领域得到了广泛的应用。2010年开始,PPP模式逐渐在交通基础设施领域中得到广泛的运用,随着几年的自由发展,2016年,发改委、交通部关于《交通基础设施重大工程建设三年行动计划》(2016-2018),大力推动交通基础设施领域PPP项目的发展,涉及项目总投资约4.7万亿元,在三年计划的刺激下,交通基础设施PPP项目不断增加,不过
诸城是一座古老的城市,有着4000多年的悠久历史文化,区域内历史文化旅游资源丰富,具有典型的代表性。文章通过对诸城市文化旅游业进行研究和探讨,发现诸城市存在文化旅游业拓展空间狭小、旅游品牌影响力弱、文化旅游服务设施不配套、文化旅游发展的保障系统不完善等问题,提出有针对性地通过拓展旅游项目、实施旅游品牌战略、完善旅游服务及基础设施、创新旅游体制等措施,推动诸城市旅游业的发展。
如今,经济全球化进程不断加快,国内经济发展速度逐渐放缓,行业面临的竞争越来越激烈,于是越来越多的上市公司实施并购措施。从上市公司角度看,采取并购措施,可以进一步拓展公司的规模,使得公司业务能够得到科学的整合,在资源配置方面使其有效性得到显著提升,企业采取合并措施,促使公司的经营方向和股本结构发生很大的变化。然而,企业在并购过程中也存在对中小股东利益造成一定的伤害,之所以出现这种情况,就利益平衡方面