面向SNP的特征选择及精神分裂症诊断模型的研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:a504468075
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精神分裂症是一种复杂的多因素疾病,对社会和家庭都造成一定的影响。基于单核苷酸多态性(Single Nucleotide Polymorphism,SNP)的研究是生物医学领域研究的重要课题。随着数据挖掘技术的发展,很多研究者利用机器学习方法对SNP位点进行特征选择并构建精神分裂症诊断模型。本论文以精神分裂症中的SNP位点为目标进行研究。首先基于改进的KCenter算法和改进的粒子群算法对SNP数据进行特征选择,然后建立基于Adaboost算法精神分裂症诊断模型。具体工作如下:(1)针对SNP位点之间的连锁不平衡性等问题,提出新算法—K-MSU对SNP数据进行聚类。K-MSU在K-Center算法中引入对称不确定性的概念并定义新的距离度量公式,进而有效解决原距离度量公式不能挖掘SNP位点之间相关性的问题。针对K-Center算法中随机选择初始聚类中心的问题,将信息增益引入到密度函数中,去衡量每个信息SNP位点的贡献程度,有选择性地挑选聚类中心。经实验证明,K-MSU算法与其他方法相比,具有更好的聚类效果和预测准确度,其分类准确率在数据集Dataset1和Dataset2平均提升1.43%和2.38%。(2)粒子群算法在特征选择过程中会使粒子在寻优时陷入局部最优,导致全局搜索效果不好。针对以上问题,本文提出新的适应度计算方法和惯性权重更新方法。首先将信息SNP子集对非信息SNP重构的准确度引入到粒子群算法的适应度函数中,搜索当前区域内最优的SNP特征。然后将信息SNP子集的冗余度引入到惯性权重中,动态调整惯性权重增强全局搜索能力。通过实验发现改进的粒子群算法与其他特征选择方法相比,在非信息SNP的重构度方面具有更好的效果,其分类准确率在数据集Dataset1和Dataset2平均提升5.33%和5.03%。(3)在医学诊断中,将患者诊断成健康人与将健康人诊断成患者的误分类代价是不同的,所产生的影响也不同。因此,提出基于代价敏感的Adaboost算法,使用熵值计算误分类代价权重,并将其引入到Adaboost算法样本权重更新中,调节各个基分类器权重,集成最终的分类器进行精神分裂症患者诊断。经实验发现,虽然精神分裂症诊断模型的准确率没有明显的优势,但数据集Dataset1和Dataset2误分类代价的错误率明显下降,分别下降了5.36%和4.72%,证明该模型更加适应于精神分裂症诊断。
其他文献
本文通过对人力资源管理与绩效考核的现状问题、提升事业单位人力资源管理效率及绩效考核的策略等三个方面进行分析,为事业单位的工作人员提供参考依据,并推动事业单位人力资源管理的完善和效率的提升。
期刊
数学建模探究活动要求学生能运用所学知识解决实际数学问题,体验数学建模活动的完整过程."茶水口感最佳问题"的教学要重点体现数据收集与处理,以及模型的选择、检验和求解的过程.在难点的突破中,要注重引导学生利用信息技术探究、比较和分析多种模型的选择方案.
近年来,汽车驾驶技术的研究不断深入,正处于向人机共驾、无人驾驶转变的过渡阶段,通过不断引入以嵌入式计算机为核心的感知技术、决策技术和驱动技术,来减轻驾驶员的驾驶负担,提高汽车的行车安全。人机共驾主要以指驾驶员与智能系统同时共享对车辆的控制,并与人机结合完成驾驶任务,是现阶段汽车研究和应用的热点。其中操纵系统的研发不仅是人机共驾汽车的核心技术之一,也是其研究领域的关键技术之一。本文面向轮毂电机驱动、
随着电力市场的不断深入改革,在电力市场中引入合理的竞争机制有助于合理优化电力市场各个参与者的资源,实现资源的优化配置。需求侧响应是指消费者能够根据价格信号或者是市场激励机制改变其用电方式,使得用户侧积极的参与电网的管理与优化,从而和电力供应侧一样参与市场竞争,形成良好的源-网-荷互动,解决用电高峰电力供应不足和用电低谷电力资源利用率过低,提高电力设备的利用率,实现电网安全稳定运行。参与需求响应的最
一切刺激嗅觉器官引起人们不愉快及损坏生活环境的气体物质即为恶臭气体,空气污染主要的来源之一就是恶臭污染,它对民众的基本日常生活产生明显影响,还对人类的健康造成严重威胁。我国对恶臭污染的检测技术研究,Odorplutin整体上开展的较晚,检测技术与世界先进国家相比还有一定的差距,市场上的恶臭污染气体检测仪器具有诸如检测精度低、价格高和在线检测功能不完善的缺点。本文从环境监测标准与市场需求出发,研究恶
项目地点:浙江省丽水市松阳县建成时间:2018年建筑面积:300 m2项目背景"西归道路塞,南去交流疏。唯此桃花源,四塞无他虞。"自古以来,松阳便被誉为"最后的江南秘境"。在距离松阳县城15公里的大种山深处,古村陈家铺悬于山崖峭壁之上,三面环山,面朝深谷,云雾缭绕,距今已有600多年历史。
期刊
以OECD课程内容图谱项目提出的"地球科学""人文地理"各自六大内容领域和共同的五大类28种能力为基础,对研究出的"地球科学""人文地理"的能力分值热图和频次热图进行二元分析,探寻我国高中地理课程中28种能力指标的分值和频次的相关关系。分析得出:我国高中地理课程各项能力指标的分值和频次呈显著正相关,整体上得到重视的能力有读写能力、数据素养、解决问题、行动和可持续发展素养,没有受到重视的能力有身体/
火力发电是我国主要发电方式之一。凝结水泵是发电厂中发电机组的关键设备,其配置直接影响到整个机组运行的安全性与稳定性。凝结水泵的台数和容量的选择,取决于机组在电网中的作用、设备投资、设备质量、机组容量等诸多因素。多级离心泵的效率高、扬程大,由于串联有两个以上的叶轮,其结构较为复杂。旋转的叶轮产生的交变激励力极易造成泵过流部件疲劳失效,同时流场的不稳定性也会对整个系统的稳定运行造成影响。本文以4×36
谐振式微悬臂梁传感器广泛应用于环境监测、质量控制、食品安全等领域,由于其输出信号微弱,易受到噪声等因素的干扰,因此可靠地提取出谐振器输出的微弱谐振信号比较困难,而Duffing混沌振子具有对微弱信号敏感、对噪声免疫的特点,常用于微弱信号检测。本文对基于Duffing振子的弱谐振信号检测算法进行了研究。研究了Duffing振子检测系统及其状态判别的Lyapunov指数算法,通过最大Lyapunov指
以OECD课程内容图谱项目提出的"人文地理(HGE)"的六大内容领域以及五大类28种能力为研究基础,按照在相关文献中出现的次数进行统计,绘制数据频次的热图。频次热图显示,能力指标出现次数偏低;在28种能力中,出现次数较多的有"读写能力""解决问题""行动""全球能力""可持续发展素养"等;在六大内容主题下,出现频次较多的是HGE4、HGE3,出现频次较少的是HGE5、HGE2。