基于基因表达数据的胃癌特征基因选取研究

被引量 : 2次 | 上传用户:xxxx000456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
胃癌是世界上危及人类身体健康的主要癌症之一。胃癌的早期发现,对胃癌的诊断和治疗有重要的意义。基因芯片技术的发展,促进了胃癌分子水平上的研究技术。从海量的胃癌基因表达数据中,挖掘出有用的信息和知识,可以更加全面的认识胃癌的基因本质,更加全面的了解“胃癌-基因”之间的关系,对推进胃癌的临床诊断和治疗,进一步研究胃癌、发现胃癌的致病机理有至关重要的作用。论文实验数据采用北京肿瘤医院提供的胃癌基因表达数据。该数据采集的样本全部来自中国,是中国人自己的数据。论文基于胃癌基因表达数据,主要围绕三个方面进行了研究:胃癌样本与正常样本的分类、胃癌亚型分类、胃癌的特异表达基因的选取。重点工作是在胃癌Lauren分型中的特征基因选取工作。实验最后得到一些比较有意义的基因。例如:CHRNA4、MEA1等。这些基因在临床上已有人证明与胃癌的发生发展和分型有密切关系。在分析方法上,本文取得的主要研究成果如下:1.提出有效的特征基因选取方法,基于巴氏距离的混合方法。混合方法结合了特征选取方法中过滤法和融合法的优点,能够快速有效地选取特征基因,从而大大降低基因表达数据的维数,提高胃癌样本的分类准确率。混合方法先对原始数据进行基于巴氏距离的基因排序。巴氏距离既考虑到基因在样本中的均值,也考虑到基因在样本中的方差分布,是比较好的信息度量指标。然后,采用顺序前向搜索方法去除基因冗余。实验最后得到7个肠型胃癌样本与弥漫型胃癌的分类特征基因,9个胃癌样本与正常样本的特征基因。2.提出一种PLS系数选择特征基因的方法。偏最小二乘(PLS)和主成分分析方法(PCA)能够有效的降低基因表达数据的维数。但是,在特征向量解释方面存在着不足。论文在基于偏最小二乘原理的基础上提出一种PLS系数的特征基因选择方法。该方法能有效的选择特征基因,并能对特征向量作出很好的解释。实验最后得到20个肠型胃癌样本与弥漫型样本的特征基因。3.将TSP(Top Coring Pairs)特征选取方法成功应用到胃癌基因表达数据处理过程中。TSP方法由2004年Donald Geman提出。据文献检索,尚未有人将其应用到胃癌基因表达数据的分类中。该方法原理简单,能够快速有效的从21378个基因中,选取出11对肠型胃癌与弥漫型胃癌的特征基因。论文最后还对TSP方法、基于巴氏距离的混合方法、PLS系数方法三种特征选取方法进行了比较性研究。
其他文献
近年来,随着电力电子装置的广泛应用,如何减少各种电力电子设备给电网带来的谐波污染,实现“绿色”电能变换成为目前电力电子技术研究的重点之一。在众多谐波治理措施中,使用
实行水电管理是实践“两型”社会建设的必由之路。油田企业作为能源开发企业,更需要履行节约水电能源的理念。然而,油田企业在水电管理方面还存在诸多问题,需要进一步健全水
目前在全球范围内,软件外包产业已成为一个规模庞大、类型丰富的产业。抓住这项新兴产业发展机遇,对江苏在新一轮发展中保持经济持续增长、实现经济结构调整和增长方式转变,
基于气体分析的GIS局部放电检测技术是当前研究的热点,GIS局部放电与SF6气体分解产物之间的关系是急需研究的重要问题之一。本文在实验室建立一套能够检测SF6分解气体的GIS局
质量贯标认证体系与工程实践存在“两张皮”现象及工程项目质量管理无常态有效机制等问题。要从根本上解决这一难题,作者根据多年的实践管理经验,提出了“工程项目质量管理标
人类发展到今天,在满足了基本的物质性生活要求后,精神形态领域内的城市色彩开始逐步受到关注.在“特色危机”的统一命题下,如何整合城市的现代和传统色彩环境,整饬无序与混乱的现
<正>随着全球大数据技术创新和业务应用的快速发展,大数据产业生态逐步形成,各国也高度重视大数据在经济发展、社会服务等方面的价值,纷纷出台相关政策予以指引,而对大数据所
在分析液压冲击器工作原理的基础上,利用多学科领域复杂系统仿真平台AMESim搭建了气液联合式液压冲击器的仿真模型.通过设定不同仿真参数,得到不同工况下活塞的位移、速度、加速
随着信息科学的迅猛发展,数字信号处理已成为一门关键技术,而数字信号处理器(DSP)芯片的出现为实现数字信号处理算法提供了可能。DSP芯片存储系统采用了哈佛结构,并使用多级
随着我国市场经济的发展和城镇化进程的加快,农村大量剩余劳动力开始大规模地向城市转移。然而受到城乡分割的二元结构体制和自身经济条件的限制,这些农民在自己进城落脚的同