基于网络数据库及WGCNA-LASSO算法胃癌预后lncRNA分子标志物筛选

来源 :华北理工大学 | 被引量 : 1次 | 上传用户:ws1984003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的基于网络数据库中胃癌和癌旁组织的RNA测序数据及临床特征数据,运用系统生物学方法联合机器学习算法进行生物信息学分析,筛选出胃癌预后长链非编码RNA(long noncoding RNA,lncRNA)分子标志物,为研究胃癌发生发展的分子学机制提供参考。方法1从癌症基因组图谱官网下载胃癌和癌旁组织RNA测序数据及临床特征数据,提取lncRNA数据并进行标准化处理,运用“edge R”函数包筛选胃癌差异表达lncRNA,采用加权基因共表达网络分析(Weighted Gene Correlation Network Analysis,WGCNA)鉴定与胃癌总体生存时间相关的lncRNA模块。2运用最小化绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)算法对模块内lncRNA构建胃癌预后lncRNA模型,绘制受试者工作特征曲线(Receiver Operating Characteristic,ROC)并计算曲线下面积(Area Under Curve,AUC)评价模型。根据模型计算胃癌和癌旁样本对应的风险评分,据风险评分中位值将胃癌分为高风险组和低风险组,利用Kaplan-Meier法进行生存分析评估模型预测胃癌预后的能力。对模型内lncRNA绘制单基因ROC曲线并计算AUC,识别出胃癌预后关键lncRNA分子,并运用生存分析加以验证。通过star Base数据库、Mutil Experiment Matrix(MEM)数据库进行胃癌预后关键lncRNA分子靶基因的预测。结果1本研究纳入345例胃癌及32例癌旁组织的RNA测序数据及临床特征数据,筛选出3301个胃癌差异表达lncRNA,其中有2439个lncRNA表达上调,862个lncRNA表达下调;对差异表达lncRNA运用WGCNA构建加权基因共表达网络,划分成17个模块,与胃癌总体生存时间显著相关的是绿色模块。2运用LASSO算法对绿色模块内100个lncRNA进行特征提取,筛选出11个lncRNA构建胃癌预后lncRNA模型;模型生存分析结果表明,高风险组中位生存时间短于低风险组,模型的AUC为0.641,提示模型预测性能良好。计算模型内单个lncRNA的AUC,结果发现LINC00665的AUC值最大,为0.695,提示LINC00665可有效独立预测胃癌预后;生存分析发现LINC00665划分的胃癌高低表达组在生存时间上具有差异(P=0.007),差异具有统计学意义,可作为胃癌预后可能分子标志物。运用star Base数据库、MEM数据库进行靶基因预测分析,发现HKR1可能是LINC00665的靶基因,相关性分析发现LINC00665与HKR1在胃癌中具有明显相关性(r=0.401,P=6.93e-16)。结论1基于TCGA联合WGCNA鉴定出包含100个lncRNA的胃癌预后lncRNA模块,为筛选胃癌预后相关lncRNA分子标志物提供数据支持。2基于LASSO算法筛选出LINC00665可能是胃癌预后lncRNA分子标志物,可能通过调控靶基因HKR1影响胃癌的发生发展过程。图18幅;表4个;参135篇。
其他文献
大量水下航行器、航标灯、浮标、潜标等海洋监测设备为海洋运输、开发、管控与科学研究提供实时、准确的信息,是推进海洋强国战略及建设智慧海洋的重要基础。目前,海洋监测设
经济的快速增长给企业发展带来越来越多机会,同时也导致企业之间的竞争由传统的物资资源的竞争转变到人才之间的竞争,企业纷纷将人力资源作为企业发展成败的重要因素。越来越
针对SUV多连杆后悬架容易开裂的问题,利用多体动力学和有限元方法对后悬架进行强度分析,可以有效避免前期设计不足导致后悬架开裂的风险。建立了某SUV多连杆式后悬架三维模型