基于信息熵的改进k-TSP方法及其在癌症分类中的应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ourui4108432566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达数据对于生物学和医学的相关研究意义重大,是生物信息学领域的重点研究对象。本文所要研究的是基因表达数据分析中的热点问题:基于基因表达数据的癌症分类和预测问题。通过对基因表达数据进行分析,对于找到基因表达变化与病理特征的对应关系,分析发病机理,从而筛选疾病的诊断靶位和药物靶位等方面的研究有重大意义,进而使直接利用基因表达数据进行疾病的诊断成为可能。本文对于目前已经存在的癌症分类和预测的算法,即通过基因表达数据分析进行癌症分类和预测的k-TSP算法进行了改进。针对目前比较流行的分类算法,其中包括C4.5决策树方法(DT),朴素贝叶斯网络方法(NB),k最邻近方法(k-NN),支持向量机方法(SVM)和微阵列数据的预测分析方法(PAM),在9个二分类癌症基因表达数据集和10个多分类癌症基因表达数据集,总共19个数据集上进行了分类预测准确率的比较,取得了较好的效果。本文根据k-TSP算法本身的特点,利用信息熵的方法进行特征基因的选择,缩减基因表达数据的维度,然后根据已选择的特征基因进行k-TSP算法的训练,再用训练好的k-TSP分类器对癌症样本进行分类和预测。不但使k-TSP算法在某些数据集上的分类预测准确率有所提高,而且减小了k-TSP算法的计算量。为了说明信息熵算法在特征基因选择方面的作用,本文以白血病数据集为例,针对通过信息熵算法选择出的特征基因经过k-TSP的筛选而得到的用于分类规则的基因,通过在NCBI上的查找,确定了它们的功能,讨论了它们与白血病之间的关系。
其他文献
在京城东北约六十公里顺义、密云、平谷的交界处,我家还有一所老宅子,是祖上传下来的,算起来面积也有一亩多。平时只有母亲一人住在那里。五间正房,四间西厢房,院子里有个很大的菜
随着我国社会经济和科技的发展,互联网的普及应用变得越来越广泛。各行业、各专业的招投标活动是我国社会经济活动中不可或缺的部分,通过数据电文的形式完成招投标交易活动对
随着我国经济改革不断深化和科学技术的发展,支持和鼓励全国人民创新、创业的呼声不断高涨,由于创新是在借鉴和模仿前人的知识和经验的基础上,经过吸收转化并不断改进的过程,
本文是在热烫法的基础上,研究增稠剂、乳化剂、保水剂等面皮改良剂对速冻汤圆低温抗裂性的影响。复配试验结果表明:最佳面皮改良剂配方是瓜尔豆胶:交联淀粉:单甘酯(+色拉油):
背景:瑜伽可以通过调控炎症介质肿瘤坏死因子α(Tumor Necrosis Factor-alpha,TNF-α)的表达情况,从而调节其相关的生物学功能。瑜伽作为新兴的肿瘤及慢性疾病辅助支持治疗方
当前全球暴力恐怖活动日趋活跃,暴恐分子及"三股势力"极力向中国高校,特别是少数民族学生群体进行思想渗透,企图在高校内培植力量、建立据点,策划实施恐怖活动,高校面临的恐
放射治疗是肺癌主要治疗手段之一,治疗主要目标是保证肿瘤受到高剂量照射,同时周围正常组织得到最大限度地保护。准确地确定肿瘤靶区以及保证被照射范围是计划预定的肿瘤区域
我国加入了WTO后经济发展更加突飞猛进,在经济全球化的推动下,我国的信息技术也取得了极大的发展,为电子商务的发展提供了一个发展契机,使电子商务也迅速发展起来。在此情况
文章针对武汉市基层医疗机构小型压力蒸汽灭菌器使用状况,采用资料调查和实验室检测相结合的方法进行监测,发现基层医疗机构在灭菌管理和灭菌质量监测上存在问题,以期引起医
强脉冲光(IPL)目前临床上应用最为广泛的光治疗技术之一,在皮肤美容领域占有十分重要的地位,本文对IPL治疗色素性疾病、血管性疾病、痤疮等疾病进行综述。