标注数据匮乏情况下的PICO元素识别

来源 :四川大学 | 被引量 : 0次 | 上传用户:wxhush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
循证医学是一种遵循证据的医学实践方式,要求医学从业者慎重、准确且明智地应用当前最好的研究证据来制定患者的治疗方案。在循证医学中,常使用PICO框架描述临床问题。PICO框架将临床问题分解为四个元素:参与者/问题(Population/Problem,P)、干预(Intervention,I)、比较(Construction,C)和结果(Outcome,O)。医学从业者为临床问题筛选研究证据时,希望根据特定的PICO元素检索医学文献摘要,但目前大多数医学文献摘要没有指明PICO元素,导致现有的检索工具无法支持PICO元素的结构化检索。因此,自动识别医学文献摘要中的PICO元素,已成为医学信息学的一个重要任务。近年来,深度学习成为PICO元素识别的主流方法,这类方法能够自动捕捉深层次语义信息,极大提升了PICO元素识别效果,但它们需要大量标注数据。然而,在PICO元素识别任务中人工标注数据有限。虽然有研究者发现部分英文献摘要中的一些元素标签与PICO之间存在一定的对应关系,可以利用这种对应关系使用远监督方法获取英文的标注数据,但在某些语言中,例如中文,大多数医学摘要没有与PICO元素对应的结构化元素标签,无法利用远监督方法获取标注数据。针对标注数据匮乏情况下基于深度学习的PICO元素识别方法性能下降的问题,本文利用观察到的先验知识,提升了在标注数据匮乏情况下的PICO元素识别效果。本文从以下两个方面展开工作。(1)在医学文献摘要中描述同种元素的句子通常连续出现,即存在元素连续性。因此,本文提出了一种引入元素连续性约束的PICO识别方法,来指导深度学习模型捕捉元素连续性信息。为了验证该方法在标注数据匮乏情况下的有效性,本文在人工标注的小数据集NICTA-PIBOSO上进行了实验,同时,在远监督标注的Pub Med-PICO数据集上采样了不同规模的训练集进行了实验。实验结果表明,引入元素连续性约束的PICO识别方法在标注数据匮乏情况下优于现有最新方法。(2)医学文献摘要往往遵循一定的逻辑结构,不同元素的句子在摘要中的位置分布具有规律性。为此,本文提出一种考虑元素位置信息的PICO识别方法,使用location-aware CRF进行序列标注,为不同元素位置区间学习不同的状态转移矩阵。为了验证该方法在标注数据匮乏情况下的PICO元素识别效果,本文在人工标注的小数据集NICTA-PIBOSO上进行了实验,同时,在远监督标注的Pub Med-PICO数据集上采样了不同规模的训练集进行了实验。实验结果表明,考虑元素位置信息的PICO识别方法在标注数据匮乏情况下的识别效果有所提升。
其他文献
信息抽取任务旨在从非结构化文本中自动抽取信息,并转换为结构化的三元组(实体-关系-实体)。根据三元组中的关系类别是否限定,信息抽取任务可以分为封闭域和开放域两类。其中,开放域信息抽取不限定三元组中的关系类别,从文本中抽取所有可能的三元组,为问答系统、信息检索和知识库构建等自然语言处理任务提供有力支持。目前开放域信息抽取工作大多在句子上抽取三元组,但在结构复杂的句子上学习抽取模板、制定抽取规则具有极
用户界面作为向用户传递信息的直接桥梁,需要将界面中的信息合理地展现给用户。线框图是基于信息架构设计的,既能反映出信息架构的信息规划,又是信息架构的具体表现,可以说线框图已经确定了产品界面的雏形。然而合理布局信息元素、绘制高质量的线框图需要设计者具有长期的经验积累。参考符合信息架构的界面设计样例可以帮助设计者设计线框图,基于信息架构进行界面检索,可以帮助设计者在线框图设计阶段收集相似信息架构的界面设
基因相似分析不仅可以提供有关基因生物学作用和功能的信息,还可以揭示各种基因之间的关系。现有的基因相似分析工作主要基于基因的序列特征、本体功能注释特征以及关联信息特征进行。然而,这三类方法通常以定量的方式度量基因的相似性,存在度量标准单一的问题;通常直接对相似性度量的定量结果进行比较,以此进行相似分析;此外,还存在忽略不同语义条件下相似度量结果不同的问题,使得基因相似分析结果偏颇。对此,本文提出了一
法医牙科学是法医学中一个重要的分支,其可以通过牙齿图像进行个体身份的鉴定(以下简称为牙齿识别)。在法医学领域,利用计算机技术辅助进行牙齿识别不仅具有很高的理论价值,还具有巨大的应用价值。然而,现有的传统数学方法仅适用于小型牙齿数据库,容易受到牙齿图像质量、牙齿形态变化等因素的影响。本文在前期工作中提出了基于可学习连接与注意力机制的牙齿识别网络LCANet,取得了较好的识别效果,但发现其仍存在不足,
碳纤维复合材料(Carbon Fibre Reinforced Plastic,CFRP)具有质量轻、热膨胀系数低以及耐腐蚀等优良特性,在航空设备建造领域被广泛使用。由于该材料具有各向异性,使用时需要按照预设铺层方向准确铺设才能最大限度发挥其性能优势。但CFRP表面图像背景复杂、分界模糊,而且图像中没有明显的线条,因此难以利用传统的直线提取方法从中获得直线信息以确认材料方向。CFRP纹理图像中存在
在软件开发及维护过程中,调试是确定程序缺陷并移除缺陷的重要环节。调查表明,该项工作基本要占据开发人员50%的开发时间。在快速短周期的开发模式下,传统的手工调试已不再适用于修复大型复杂的计算机软件。于是,研究人员提出自动化缺陷修复技术,期望该技术能够协助或代替开发人员进行缺陷修复,从而降低软件开发成本。在现有的研究成果中,大部分缺陷修复技术使用测试用例来描述正确的程序行为,并通过重新运行测试用例来验
随着互联网的迅速发展,二维码凭借着存储信息量大、译码迅速等优势,被广泛应用于身份验证、物流溯源、移动支付等领域。但在采集过程中,受成像环境及中间载体的影响二维码图像很容易造成几何失真,给解码带来了困难,所以,二维码的校正十分关键。在对二维码进行校正的过程中,需要对图像进行重采样的操作,该操作容易出现混叠现象,导致校正后的图像出现新的形变,从而无法识别。因此,研究如何降低二维码图像的混叠问题具有重大
图像超分辨率是计算机视觉与图像处理领域的重要研究课题之一,在视频监控、医学影像、卫星图像等多个方面有着广泛应用。近年来,基于深度学习的单图超分辨率技术得到快速发展,但是为了不断提升高分辨率图像的重建效果,超分辨率方法的网络层数不断增加,使网络的参数量和计算量过高,导致这些方法难以应用于计算资源与存储资源有限的设备上。本文从控制超分辨率算法的计算量、参数量出发研究轻量级单图超分辨率算法,并将其应用于
中国画作为中华民族优秀传统文化的重要组成部分,在漫长的发展过程中形成了独具特色的艺术表现形式。因此,在中国画教学中,应多融入传统文化,这不仅是中国画教学活动开展的基本要求,同时还是传统文化传承发展的重要途径。本文在明确传统文化融入中国画教学意义的基础上,分析了教学活动开展过程中面临的困境,同时结合教学活动开展实际,提出了完善融入路径,以期能为中国画教学改革提供一定的理论参考。
图像分割是计算机视觉领域中一个非常重要的研究课题。图像分割通常用于定位图像中的物体和边界,其目的是简化或改变图像的表示形式,使得图像更容易理解和分析,在目标识别、运动物体跟踪、生物医学图像分析等领域中都有广泛的运用。图像分割的一个核心挑战是由成像设备、照明条件和复杂背景引起的图像灰度不均匀性。虽然目前已有的算法可以很好地分割出灰度均匀图像中的目标物体,但是对灰度不均匀场景则会出现较大误差。由于灰度