基于远监督的临床证据抽取方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:lwyhunter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在循证医学的发展与实践中,临床医生需要研读大量临床试验文献,汲取其中的最新临床证据,作为医疗决策的参考依据。人工撰写的系统综述是可靠的临床证据来源,但是具有小规模、滞后等局限性,因此临床证据的自动抽取成为一个重要的课题。在以临床试验文献全文作为语料库的临床证据抽取任务中,由于医学文献专业性强、细分领域多、标注代价高昂,目前仍缺乏公开的、多医学领域的训练语料或数据集,导致无法构建通用的临床证据抽取模型。即使采用远监督等方法进行自动化标注,生成的数据集中也含有大量误标注的样本,这种数据集被称为嘈杂数据集,其中的标签噪声会影响模型的最终表现。基于以上研究背景,本文提出了基于远监督的临床证据抽取方法,主要研究内容如下:(1)提出了基于远监督的临床证据自动标注方法。采用基于文本相似度的远监督方法,面向权威的临床证据框架——PICO框架,进行临床证据自动化标注。提出了ROUGE-Hybrid算法进行文本相似度的计算,通过对比实验,验证了该算法的有效性,最终构建了PICO-DS数据集。(2)提出了面向嘈杂数据集的临床证据抽取方法——Aceso-DS模型。由于(1)中构建的PICO-DS数据集含有“噪声”,即误标注的样本,所以Aceso-DS模型引入损失权重网络,通过适应性地学习元数据集的信息,降低误标注样本的权重,减轻其带来的影响;引入小规模人工标注的样本,采用主动学习方法提升标注效率。最终,通过消融实验和对比实验,验证了Aceso-DS模型的有效性。(3)设计并实现了临床证据抽取工具Aceso-Reviewer。使用该工具,用户可以上传临床试验文献,并获取文献中的基本信息与临床证据。综上所述,本文采用基于文本相似度的远监督方法,生成了涵盖多个医学领域的临床证据数据集;构建了基于PICO框架的临床证据抽取模型;最终设计并实现了临床证据抽取工具。
其他文献
中国即时配送行业背景及现状1中国即时配送行业新趋势及新业务方向2中国即时配送行业玩家新业务3中国即时配送行业宏观驱动(1/3)居民可支配收入提高,消费能力和消费意愿增强的背景下,居民对高质量服务需求增多2020年,中国居民人均可支配收入为32,189元,增速4.7%,同GDP增速,受新冠肺炎疫情影响,相较前几年显著降低。
会议
当前社会的生产、生活逐渐走向多方面的移动互联网化,随着通信技术的发展与移动终端性能的进一步提高,越来越多的大型设备、仪器、家电的操作使用逐渐向移动端迁移。而目前实验室内的许多传统研究型仪器仍孤立于互联网外,亟需移动互联网化改造,以增加其在使用上的便捷性与智能性。另一方面,本课题组为解决传统肿瘤细胞核酸适配体筛选过程中所存在的耗时耗力、气溶胶污染等问题,研制了基于封闭式卡盒的自动化肿瘤细胞核酸适配体
学位
尿毒症皮肤瘙痒症(UP)是透析患者的常见并发症,其发病率逐年升高,给终末期肾病患者和社会均带来沉重负担,但目前UP的治疗效果并不理想,因此探讨其发病机制具有重要的临床意义。UP的发病机制涉及多种因素,主要包括尿毒症毒素蓄积、系统性炎症反应、透析相关补体通路的激活等。近年来,P物质/神经激肽-1受体信号通路激活、汗腺分泌功能异常等学说也备受关注。因此,未来阐明UP的发病机制可以为临床治疗提供新思路。
芝麻素普遍来自于脂麻科植物-脂麻收获后的种子,芝麻素常见的用途有很多种,比如将其作为抗氧剂以及杀虫剂等,民间还有将其用于气管炎症的治疗。芝麻素的有不易溶于水中的特性,导致在制备成制剂时候出现困难。所以本研究以将芝麻素、植物油为油相,聚山梨酯-80为表面活性剂,甘油为助表面活性剂,通过科学方法调制成芝麻素微乳,探讨其理化性质,并且对芝麻素微乳的抗氧化及抗疲劳功效进行研究,通过急性毒性实验及亚慢性毒性
大尺度地震会引发一系列的灾害,特别是地震滑坡,对城市和农村地区造成了巨大的破坏。我们最关心地震滑坡灾害的问题是“地震后哪些地方发生滑坡”以及“地震滑坡的规模和危害性怎么样”。地震后哪些地方发生滑坡是地震滑坡应急响应的第一步,随着遥感技术的发展,基于遥感影像空间感知的地震滑坡自动识别已成为解决地震后哪些地方发生滑坡的基本要求。过去,通常是基于像素或面向对象的方法进行滑坡自动识别。但由于大量遥感数据的
本文主要针对夏热冬冷地区东西向中学教室进行自然采光研究,并依据研究结果进行了南京市金陵中学江心洲生态科技岛校区的项目实践。主要内容为探究东西向教室的可行性和设计方法。本文首先对土地资源、教育改革和青少年近视率等相关背景进行梳理归纳,探讨夏热冬冷地区东西向中学教室的设计研究价值。接着对东西向教室的气候影响因素和人工影响因素进行归纳,确定了以采光系数DF、全年有效采光度UDI和眩光评价指标为核心的自然
混凝土材料从细观尺度上可以看作是由粗骨料、水泥砂浆以及二者之间的界面过渡区所组成的三相非均质复合材料。作为最广泛使用的建筑材料,混凝土的力学性能直接关系到建筑结构的安全性。近年来随着绿色环保的理念不断加深,陶粒混凝土作为新型绿色材料在工程建设中得到了越来越广泛的应用,因此开展混凝土及陶粒混凝土力学性能的研究非常有必要。本文以混凝土和陶粒混凝土为研究对象,利用MATLAB语言完成了混凝土及陶粒混凝土
焊接是一种常见的工程材料连接方式,广泛的应用于航空航天、船舶制造、交通轨道、压力容器、精密仪器等行业。焊接过程伴随着大量的热输入,从而导致焊缝及其周围产生不均匀的高热高压环境,且伴随着巨大的温度梯度。材料在瞬态热输入的条件下受热膨胀,同时又受到低温区域材料的制约,当内应力大于屈服点时,材料产生塑性变形;材料冷却后,残余塑变又会带来残余应力。塑性应变和残余应力不仅会对材料构件的刚度、强度、形状精度和
多标记排序任务是多标记分类任务和标记排序任务的结合。在多标记排序任务中,对于一个示例,多标记排序模型需要为它预测预定义标记集上的相关无关标记划分,以及相关标记的相关性排序结果。多标记排序体现了标记的歧义性与偏好性,是对于现实任务的更加具体的建模。然而现有的研究工作中,直接针对多标记排序任务设计的算法并不多,大部分多标记排序算法是根据现有的标记排序算法通过校准标记排序技术进行扩展得到的,很难同时兼顾