面向案件文书的罪名预测方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:hexiaole632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的发展以及司法数据的公开,司法领域的人工智能研究与应用受到了广泛关注。罪名预测作为法律判决预测中一个重要子任务,它是司法智能辅助系统的重要组成部分。罪名预测任务根据案情描述和事实预测被告人被判的罪名。罪名预测通常被看作司法领域的文本分类问题,已有方法大多采用深度神经网络构建罪名预测模型,在常见罪名的预测方面取得了很好的效果。然而,已有研究对罪名预测任务中的数据不平衡现象关注较少,导致低频罪名和易混淆罪名预测效果较差。本文面向裁判文书数据开展罪名预测方法研究,从度量学习文本分类和数据增强两个方面改进罪名预测方法。本文主要研究工作包括:(1)针对罪名预测任务中的单罪名情形,本文将均值原型网络引入司法领域的罪名预测这一特定任务中,提出了一种借助均值原型网络实现的罪名预测方法,该方法结合度量学习和Bert构建罪名预测模型,通过移动平均方式集成各罪名的分类原型向量。相比基线模型,该方法的罪名预测F1值提升了5.4%。(2)针对罪名预测存在的类别不平衡问题,本文提出了一种融入类别先验信息的Mixup数据增强策略,有效改进了低频罪名和易混淆罪名的预测性能。该方法首先利用Bi-LSTM和结构化自注意力机制获取案件描述与事实文本的向量表示,在此基础上,通过Mixup数据增强策略在文本向量表示空间中合成伪样本,并利用类别先验使合成样本的标签偏向低频罪名类别,以此来扩增低频罪名训练样本。实验结果表明,与现有方法相比,该方法在准确率、宏精确率、宏召回率和宏F1值上都获得了大幅提升,低频罪名预测的宏F1值提升了13.5%。(3)本文基于提出的预测模型构建了罪名预测原型系统。本文以提出的罪名预测模型为基础,结合Sanic Web开发框架和Vue.js前端框架,开发了基于B/S架构的罪名预测原型系统。
其他文献
肺癌是目前所有疾病中对人类威胁最大,却极难治愈的肿瘤疾病之一。及早发现和尽快治疗是当下仅存的防治肺癌最奏效的措施,肺癌在发病初期主要的表现形式是肺结节,医生可以通过对胸部CT的观察和分析对早期肺癌进行及时诊疗。然而,随着肺部CT图片数量的激增,单纯依靠人工从大量CT图片中进行筛查、判断几乎是不可能的。基于深度学习的计算机辅助系统能够对CT图片进行初步的选取处理,可以大大减轻医生负担,降低医生误诊、
阿尔茨海默病(Alzheimer Disease,AD)以及注意力缺陷障碍症(Attention Deficit Hyperactivity Disorder,ADHD)等神经性疾病深深的影响着每一位患者的健康,该类神经性疾病起病比较迟缓,不容易被诊断出来,如果能够在早期及时的发现,则能够在很大程度上降低该类疾病晚期的发病率。人脑磁共振(Magnetic Resonance,MR)图像中的解剖结构
从时空数据中挖掘模式在人类出行行为、智能交通、城市规划和生态研究等方面有着重要的应用。信息化城市建设的一个重要问题是如何从海量的轨迹数据中挖掘出频繁轨迹序列模式进行定位感知和基于位置的服务(location-based services,LBS)。传统的轨迹序列模式挖掘算法由于挖掘过程中会产生大量中间子序列,严重影响算法收敛速度和挖掘效率。另外,随着定位技术的飞速发展,时空数据的获取越来越广泛,数
老挝作为中国的重要邻国,与中国在经济上有着密切的联系,开展老挝自然语言处理的研究工作存在重要战略意义。其中,机器翻译、信息检索等跨语言信息处理任务需要汉老双语平行语料的支持。双语句子对齐作为构建双语平行语料的关键技术,旨在提取双语文本中语义相同的平行句子对,因此具有重要的研究意义。本文提出一种融合多特征的汉老双语句子对齐方法,从而解决研究中存在的问题,主要工作如下:(1)融合文本特征的汉老双语句子
汉语-老挝语文本相似度计算研究对开展老挝语的自然语言处理研究和中老交流与发展具有重大意义。老挝语属资源稀缺型语言,汉语和老挝语具有相似的句子结构特征,通过在模型中融入语言特征能在有限的训练数据中获取更多的语义信息来提高相似度计算模型的性能。为了获取更准确的双语文本语义表示,按篇章文本的构成将其分为了段落短文本和句子,通过研究不同粒度下的语义表示方法,获取高质量的句子语义表示、段落短文本语义表示,最
引言2021年7月24号,"双减"政策出台。"双减"的任务之一就是要减轻学生不合理的作业负担。而教师作为作业布置的主体,应重视作业的设计。本文就初中英语作业设计中存在的问题,结合课例阐释如何在课程视域下提高作业设计的质量,以便更好地发挥作业的积极作用,落实"双减"政策。
期刊
着装场景下的人体姿态估计能有效提高虚拟试穿的真实性和动感展示,因此,准确估计出着装图像中的人体姿态,对辅助二维虚拟试穿具有重要作用。本文针对时尚着装场景中由于服装款式多样、背景干扰、着装姿态多变等因素,导致着装人体姿态估计精度较低的问题,以时尚街拍图像为例,首先,通过爬取大型时尚街拍图像网站Chictopia,并结合在线图像搜集获得数据集原始图像,使用Label Me对图像进行精细的人体信息标注,
太阳日冕结构的密度、位置和形状短至几秒钟就会发生变化,较大的动态范围,造成望远镜拍摄的日冕结构边缘模糊且噪声较大,使得可视化困难。随着数字图像处理技术的发展,盲退卷积算法对于要求恢复结构准确性和真实性方面提供了科学的理论依据。图像退卷积算法是图像复原增强领域的一个经典问题,因为方程的求解是欠定的,所以在退化模型的构建,清晰图像和模糊核的先验信息,失真效果的抑制,迭代算法的稳定与准确方面,越来越多的
当前,针对代码质量研究十分重要。基于源代码的代码质量分析技术一般借助于静态分析或动态测试方法对源代码进行度量,具有简单、易实现的优点,有助于代码质量的分析。随着开发者社区和代码托管平台成为程序员获取代码的主要途径,针对代码的用户评论数量急剧增加。用户在使用代码后给出的评论中包含多种代码质量信息,基于用户评论的代码质量分析可以站在用户角度进行代码质量分析,从而帮助开发者在了解用户的代码使用情况和用户
数据驱动模式是材料基因组计划(MGI)的核心问题,但如何快速获取大量材料数据已成为需要解决的关键问题。目前,材料数据库的共享性较差,很难从公共资源中获取有效的材料数据。因此本文采用文本挖掘的方法从Al-Si合金材料文献中获取有效数据。自然语言处理(NLP)是一种常用的文本挖掘方法,关系抽取(RE)作为自然语言处理的主要任务之一,可以有效地从文献中提取信息。本文采用Al-Si合金实体关系联合抽取模型