面向非均衡数据的糖尿病并发症预测研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:lizhuyundao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决正负样本不均衡分布造成的分类边界偏移,训练模型对少数类样本学习不充分的问题,提出了融合条件熵和TFIDF的HTTE过采样方法(Oversampling technology based on conditional entropy and TFIDF)和基于BERT与卷积神经网络的标签文本分类算法。HTTE采用信息论的方法,计算每种特征组合情况下标签的条件熵,再融合TFIDF值,保留数据特点的同时得到信息量,再根据得到的值创建新的少数类样本。基于BERT和卷积神经网络的标签文本分类算法,先使用BERT模型生成文本向量,然后使用卷积神经网络模型进行层级连接,对向量化后的序列进行编码。在国家临床科学数据中心提供的真实的5694名糖尿病患者的37项生化检查数据集上,使用融合的BERT模型和卷积神经网络模型对并发症进行文本分类,对模型得到的结果进行人工修正,并进行训练集、验证集和测试集的划分,再使用HTTE过采样方法对训练集中的少数类样本采样,使正负样本数量均衡,最后融合随机森林集成学习模型分类预测糖尿病患者可能患有的并发症。结果表明,基于BERT和卷积神经网络的标签文本分类算法得到的train accuracy和val accuracy分别为0.979和0.921,使用准确率、ROC曲线下AUC评分值和PR曲线下AUC评分值作为评价指标,提出的HTTE过采样方法融合随机森林集成学习模型得到的3个评价指标值分别为0.976、0.987和0.959(11个并发症的均值)。提出的方法为科研在处理不均衡数据方面提供技术参考,同时在医学上可以辅助医生做临床诊断,提高临床诊断准确率和速度。该论文有图20幅,表14个,参考文献60篇。
其他文献
环境会计信息披露为企业和利益相关者建立起一座信息桥梁,利益相关者可以通过企业披露的信息进行投资决策;企业为了提高自身的社会知名度,积极履行社会责任的同时会更加注重披露企业的环境会计信息来树立企业形象。目前,我国煤炭上市企业环境会计信息披露普遍存在信息披露不主动、形式不统一等问题,导致披露信息的质量与信息使用者的使用需求不匹配。煤炭企业如何完善其环境会计信息披露体系迫在眉睫。以美锦能源为例,提高其环
学位
在经济新常态背景下,作为提高竞争水平的主要因素,技术创新在企业中起到了极其重要的作用。银行业是当前我国金融市场的核心组成部分,企业的技术创新活动主要通过银行信贷来进行融资。随着我国银行业市场的不断开放,银行业竞争加剧,那么这对企业技术创新的影响如何?银企关联作为一种关键的社会资本,在促进银企双方合作、帮助银企双方获取有利资源等方面发挥着重要作用。那么银行业竞争是否会影响银企关联,进而影响企业技术创
近年来,人工智能、移动支付等新兴互联网技术以互联网金融形式逐渐拓展至传统金融领域,形成了传统商业银行和网络之间个人信贷业务相互竞争下的新型个人信贷背景,违约风险产生的因素不断增加。因此,基于因素空间理论,本文研究逆向因果分析法和Logistic回归算法的构建,将二者应用到个人信贷违约风险预测,研究内容:第一,对因素空间理论下逆向逻辑归纳的思想作出更明确的数学描述,用背景分布取代背景关系,提取出包含
随着大数据时代的发展,商业银行间的竞争愈加激烈,保证商业银行基本业务的稳定,防控流动性风险已经成为了银行管理和监管的重要内容。保证商业银行存贷款的稳定性是银行合理管理资金与防控风险的重要课题。传统的解决方法缺乏数学理论支撑,因此如何建立可靠的数学模型来提高商业银行存贷款稳定率成为了银行监管领域有待解决的关键问题之一。针对商业银行存贷款稳定率分析问题,以及银行管理实践需求,本文从生存分析角度出发,构
近年来,国内汽车产量和销量以人们不可预估的速度增长,作为该行业核心支撑的汽车零部件行业的发展势头亦是迅猛。从汽车工业的发展历程来看,汽车零部件以其不可或缺的核心优势作为汽车产业发展的支柱产业和强大的坚实后盾。但汽车行业长久以来受到上游以及下游行业的排挤,导致负责汽车零配件生产方面的企业处于劣势,在这些企业当中,民营企业占比近一半,其中不乏有众多新三板上市的民营企业。上海科曼车辆部件系统股份有限公司
在以知识创新为代表的新常态背景下,企业主要依靠提高创新能力来占据市场中的核心地位。因此,企业面临的不确定性风险更大。财务柔性能够帮助企业应对不确定性风险带来的不利冲击,实现企业可持续性发展的战略目标。随着教育信息化的不断发展,睿智教育在经营过程中存在着研发费用逐年上升且资金回笼期限长、营业成本逐年上升、人才流失、知识产权受侵害的风险,利用双指标法评价其财务柔性只能反映出是否储备了财务柔性,却难以反
精益生产是制造业较为先进的生产方式,在提升企业竞争力方面效果显著,得到了众多企业的认可。F公司是国内生产托辊的传统企业,由于客户订单量不断增加,为了提高托辊产量,公司决定在托辊生产车间全面推行精益生产。价值流是精益改善的重要工具,能够识别生产浪费,消除不增值部分,提高生产效率。基于精益理论,通过现场调研、现场测量的方式收集了托辊生产相关的数据信息,找出影响托辊生产效率的主要问题并对问题进行现状分析
长三角城市群是我国重要的经济增长引擎,其物流产业在区域经济一体化发展的带动下,已显现出空间集聚态势。长三角城市群各城市间的区域差距大,发展不均衡,其物流产业集聚对物流发展的影响及其溢出效应并不确定,难以进行物流产业的合理布局与管理。物流产业效率是衡量物流产业发展质量的重要指标,长三角城市群物流产业集聚的溢出效应可以通过物流产业集聚对物流效率的影响来判断。本文利用区位熵值法和DEA模型对长三角城市群
为了应对激增的市场需求,恒久安泰在不变动企业生产结构的同时,联合外部制造商的协同调度对生产运营进行优化。在当前的生产环境下,企业的生产协同调度效率低下,经常出现节点内订单阻塞,产能负载上限较低,无法按时完成订单。围绕降低资源调度的交付时间,延长阻塞时间以及提高生产负载上限来改善协同生产系统中的生产调度问题,展开以下两个方面的研究:(1)针对企业的实体生产运营的操作流程,提出了一种基于多智体系统(M