生物信息学方法和生物基因芯片进行癌症诊断方面的研究

来源 :同济大学 | 被引量 : 2次 | 上传用户:a63685296
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从20世纪90年代以来,美国率先启动的人类基因组计划(Human Genome Project,简称HGP)带来了前所未有的数据爆炸,然而数据并不等于信息和知识,仅是信息和知识的源泉,对科学家而言,最关键的问题在于如何从数据中找到揭示生命奥秘的钥匙。如此伟大的动力就诞生了一门新兴的交叉科学,这就是生物信息学。通过对生物学实验数据的获取、加工、存储、检索与分析,生物信息学成为解开生物数据所蕴含的生物学意义的强大工具。同时,随着人类基因组计划进一步的快速发展,生物信息学在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。尤其在疾病诊断领域,生物信息学方法结合90年代中期发展起来的一项前沿生物技术——生物基因芯片,通过对全基因表达图谱进行数据挖掘,成功地将临床表征不明或容易误诊的恶性肿瘤准确、快速地区分开,从而为癌症的早期诊断与及时治疗做出了重要的贡献。 本课题的重点就是利用基因芯片数据产生的基因表达图谱和生物信息学中的模式识别方法,对不同种类的癌症样本加以分类。针对基于芯片数据的复杂性和各种分类方法的特点,文中使用了两种不同的模式识别体系,其基本思想均为先降维再分类最后预报。第一种是分别使用t检验、方差分析进行变量选择或使用核函数进行数据重组完成降维,再与人工神经网络算法——自组织映射结合完成分类预报;第二种是核映射(Kernel Trick)方法与偏最小二乘联用构成的非线性偏最小二乘作为分类器。通过对急性白血病、肺癌、前列腺癌以及扩散大B细胞淋巴癌等四套基因芯片数据的实验,证明了本文提出的分类方法具有很高的正确率和较好的稳定性。此外,借助Leave One Out(LOO)和5-fold交叉验证以及方差分析等统计学分析方法,对不同降维方法的降维效果以及数据集特点进行了讨论。 本文最大创新之处为将核映射引入降维操作中,使通常处理多样本少变量的核函数巧妙地应用于少样本多变量的问题中。由于样本采集难度大,一般进行基因芯片实验的样本个数在200以内,大多100左右,而基因个数均在5000以上。这种变量数远大于样本数的体系,对降维有非常高的要求以及敏感性。
其他文献
对于骨科需要手术治疗的患者来说,陌生不安、认知缺乏、焦虑与恐惧的情绪几乎是无可避免的,而焦虑紧张的情绪直接影响到手术的进行及术后的恢复.术前探访作为手术室整体护理
目前Web上的信息仅仅是为了让人们去阅读,而不是让计算机程序去有效地利用,现在迫切需要对Web上海量信息的机器自动处理,如何使Web信息为机器所理解并自动处理成为将来Web发
历史,总在关键时刻标注下特殊的印记——2020年5月21日至28日,中国北京。在庄严的人民大会堂,在疫情防控背景下视频连线的现场,在热烈审议讨论的驻地会场……近5000名代表委
目的:分析本地区新型冠状病毒(2019-nCoV)肺炎的发热症状,探讨2019-nCoV肺炎出现发热症状的概率;并探讨发热与否、发热的高低、发热持续时间的长短与病情轻重及预后是否存在
据《2019中国激光产业发展报告》统计,目前我国与激光相关的30个国家级科研平台中,只有2家建在企业,其余28家均依托科研院所和高校建设。在激光的科研方面,项目多集中在高校
目的研究TRPC5在糖脂代谢过程中的作用。方法选用C57BL/6J与TRPC5-/-♂小鼠各10只,随机分为对照组与高糖组,每周测定小鼠体重与空腹血糖。8周后,用试剂盒测定血清中insulin含
目的建立稳定有效的抗生素相关性腹泻(antibiotic-associated diarrhea, AAD)小鼠模型,为抗生素相关腹泻的机制及药物的研究提供支持。方法各抗生素按约临床剂量的8倍,每日灌
2018年7月召开的全国组织工作会议上,习近平总书记强调:"要加强支部标准化、规范化建设。"党支部是党的全部工作和战斗力的基础,是党的基础组织、基本单元,是党在社会基层组
由营业税向增值税转型是铁路建筑企业税制改革的一项重要举措,征税的方式、内容均有所调整。结合具体工程实例,说明增值税计税方式对铁路建筑企业的利润有较大影响,这就要求