面向类案推荐的医患纠纷文书建模

来源 :东南大学 | 被引量 : 0次 | 上传用户:cultra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医患纠纷文书作为记录纠纷过程的宝贵资料,对后续的纠纷解决有着重要指导作用。在实际的纠纷调解过程中,如能根据具体的案情进行精准的类案推荐,则可以有效提升医患双方对责任和赔偿的认知,提高案件解决质量和效率。传统的类案推荐方案一般是通过专家确定类案的特征项及权重,将文书映射成固定维度的、稠密的特征向量,然后基于向量相似度计算来推荐类案。该方案非常依赖于专家对类案的判断和对类案特征的选择,而这不仅需要专业的领域知识和较高的人工成本,也具有很大的主观性,即不同角色、不同主体对类案的认知往往存在较大差异,导致类案推荐的用户满意度不高。为此,本文提出了一种基于多任务学习的医患纠纷文书建模方案,该方案通过多任务训练帮助模型自动捕获类案特征模式,将文书转换成向量表示,避免对领域专家的过分依赖。然而,上述方案面临如下问题:1)缺乏用于训练模型的医患纠纷类案数据集,而人工标注数据集的成本过高;2)医患纠纷文书属于长文本,包含大量冗余信息,如果直接基于全文进行建模容易造成有效信息被忽略,使得模型训练中无法完成对类案特征的有效捕捉。针对以上问题,本文首先通过无监督方法计算医患纠纷文书词汇层面的相似性,构造类案数据集用于文本匹配任务训练;然后根据文书特征,借助专家经验,总结出与类案最为密切的两类不同粒度的关键要素,即与“医疗过失行为”相关的句粒度要素和包含“科室、部位、症状、疾病、用药、手术”等特定关键词的词粒度要素,并分别使用BERT+FC分类模型和BERT+CRF序列标注模型来抽取上述两类要素,实现冗余信息的过滤;最后针对BERT模型在学习完整关键词语义存在的不足,设计基于文书特定关键词的掩码任务,通过上下文来预测被掩码的关键词,显式地将关键词信息融入到BERT模型中,增强BERT的语义表达能力。总的来说,本文的工作具体包括如下四个部分:1)类案数据集构造。使用jaccard方法计算文书词汇层面的相似度,构造类案数据集。2)基于句粒度的要素抽取。使用BERT+FC分类模型抽取文书中出现的与“医疗过失行为”相关的句粒度要素;3)基于词粒度的要素抽取。使用BERT+CRF序列标注模型抽取文书中出现的包含“科室、部位、症状、疾病、用药、手术”等特定关键词的词粒度要素;4)基于多任务学习的文书建模。一方面通过文本匹配任务帮助BERT模型学习到下游应用数据的特征模式,另一方面设计基于文书特定关键词的掩码任务帮助模型显式学习自定义的关键词知识,增强模型的特征表示能力。将经过多任务学习的BERT模型作为文书表示模型,该模型将输入的文书映射为固定维度的稠密向量,之后可基于向量相似度计算来推荐类案。实验结果表明,本文提出的文书建模方法优于基线模型,用于类案推荐时,推荐结果的精准度优于传统的类案推荐方案。
其他文献
学位
随着互联网技术的迅猛发展,目前大多数应用软件都建立在一个庞大、繁杂、跨协议层的大型分布式集群中。这类分布式集群的技术、软件、配置通常会不断地演变,难以避免会发生故障。面对海量的监控数据和庞大的系统,IT(Information Technology)运维人员很难做出迅速、准确的运维决策来应对各种故障。近年来,智能运维(Artificial Intelligence for IT Operation
随着信息技术和多媒体技术的发展,视频会议在人们的生活中发挥越来越大的作用。多点控制单元是视频会议的核心,负责会议召集、音视频编解码和数据转发等核心功能。目前多点控制单元存在缺乏统一管理、内部操作复杂、自动化程度不高的弊端。针对多点控制单元维护管理现状,本文设计实现了一个以资源管理、监测告警和风险分析为主要功能模块的维护管理工具,完成了以下具体工作:(1)资源管理模块的设计与实现。该模块旨在对不同版
面向知识图谱的知识推理旨在推理出与查询和规则相关的隐含知识或依据路径,是近年来知识图谱研究的热点问题之一。知识推理在封闭域的知识查询、知识图谱补全、开放域的知识问答、语义检索等场景中具有重要的的应用价值。虽然知识推理已有大量的研究成果,但现有推理模型在长距离和复杂关系的推理中,由于推理链长度增加导致搜索空间过大以及关系复杂多样等因素的影响,知识推理仍然面临着推理精度不够高和推理性能不够好的挑战。针
随着无线通信技术与互联网技术的不断发展,基于位置服务(Location Based Service,LBS)的应用领域也逐渐从室外场景延伸到室内场景。室内场景随着多元化的产业升级变得愈加复杂,目前多技术融合应用是实现室内位置服务系统的发展趋势,主要涉及的技术包括室内定位和轨迹预测。传统的室内定位技术首先在室内部署位置已知的接入点设备,然后通过计算目标点与接入点之间的距离来实现,这种方法容易受环境影
云制造可按需提供各种制造服务,任务和资源调度是提高制造服务质量的关键。本文考虑云制造环境下具有截止期约束和学习遗忘效应的工作流任务调度问题,以最小化总成本为优化目标。该问题的主要挑战有:1)由于较低的租赁成本通常会导致较长的工作流完工时间,可能违反截止期约束,而较短的工作流完工时间通常需要租赁较高价格的服务资源,导致较高的总成本,如何平衡工作流的完工时间和总成本是一个挑战。2)制造任务在分布式制造
加密货币近年来吸引了众多投资机构的注意。在这个新兴的资本市场中,投资机构扮演了什么角色,对加密货币的市场表现有何影响值得深入分析。本文基于网络分析方法和监督学习技术对ERC-20代币的投资机构及相关市场数据进行研究,进而分析投资机构对ERC-20代币一级市场和二级市场表现的影响。对于一级市场,本文以ICO成功(上市满一年)和ICO失败(从未上市)衡量代币的市场表现,同时以上市首日交易量、上市首日收
近年来,开源已成为工业界高质量高效率开发核心软件的重要手段。而随着开源软件社区和开发平台的快速发展,可用的开源软件项目数量迅速增加。在共同的开发平台和环境中,开源软件项目相互联系,共同演化,形成软件生态系统。如今,软件生态系统已经成为构建大型软件系统的有效方法,受到了学术界和工业界的广泛关注,而GitHub作为全球最大的开源软件社区,成为了研究软件生态系统的绝佳对象。其中有大量的开源软件项目无法继
学位
经验回放(Experience Replay,ER)是深度强化学习(Deep Reinforcement Learning,DRL)的重要组成部分,通过重复采样学习保留在经验池中的经验,优化目标策略。目前,经验回放存在两个问题:1)经验保留使用全保留或先进先出的经验池,需要与环境交互产生大量样本,导致深度强化学习算法的学习速度较慢,样本利用率有待提升;2)优先采样打破经验池中原本的分布,加大经验状