裁判文书的文本信息抽取与分类统计系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:iloveyanqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
裁判文书记载人民法院审理的过程和结果,它是诉讼活动结果的载体。法院经常需要针对不同主题或者案由的案件做专题分类统计,但是相关分类统计项没有记录在审判流程系统的关系数据库中,因此统计的难度非常大,相关统计的数据源只能从裁判文书的文本中获取,所以必须针对裁判文书的文本数据开展深层次的挖掘分析。本文针对案件分类统计的难点,设计并实现了裁判文书的文本信息抽取与分类统计系统。本文设计了裁判文书通用型文本信息抽取模块,针对各段落的特征词,将裁判文书划分为文首、诉讼参与人、诉讼记录、案件基本情况、裁判分析过程、文尾这六大段落,并在各段落中进一步抽取更详细的信息。本文设计了要素式文本信息抽取模块,在通用型文本信息抽取的基础上进一步抽取裁判文书的要素信息,本文将要素项分为两类,一类建立规则去抽取,另一类转为分类问题,构建TF-IDF与word2vec结合的特征,使用xgboost模型去分类。本文设计了文书分类统计模块,结合中国司法大数据研究院专题报告中的分类统计项,依据上述结果,设计了各统计项分布的计算方法,并将统计报告发布到网络平台展示。本文还设计了文书管理模块,管理信息抽取和统计计算过程中生成的文件。本系统总体上采用了分层的结构。通用型文本信息抽取模块和要素式文本信息抽取模块作为信息抽取层提供裁判文书的基本信息。文书分类统计模块则作为信息统计层,用来计算统计项的分布。展示层则负责发布展示结果。本文使用Vue.js和Spring MVC框架搭建了 Web系统,结合可视化工具Echarts将统计结果展示给用户。本文对系统各个模块的详细设计与实现进行了描述,并通过系统测试验证了系统的性能达到要求。
其他文献
永续债即依照法定程序发行、附赎回(续期)选择权或无明确到期日的债券,兼具股性和债性,是种新型的混合资本工具。自2013年我国第一只永续债(武汉地铁可续期企业债)面世,直到2015年永续债发行数量、规模才开始快速增长,永续债品种也逐渐增多。与此同时,2015年供给侧结构性改革推行以来,“去杠杆”是国家的重要调控任务之一,体现在能够有效控制宏观杠杆,而微观企业去杠杆正是调控宏观杠杆的重要途径之一。在这
2018年以来,我国经济增速放缓,金融市场强调严监管,两者结合下导致债券市场的信用风险集中释放,全年债券违约规模达到1335亿元,创下历史新高,违约事件向着常态化态势发展。按行业来分,违约规模前三者分别是商贸、采掘和综合,结合行业特性,本文确定了采掘(即煤炭)行业,就其信用评级质量进行检验研究。本文首先从个体的角度检验评级质量的好坏,选取的主体为市场上首例AA+债券违约主体,也是煤炭行业违约规模最
世界语言普遍存在着羡余性特征,羡余性是语言的三大属性之一。羡余性特征是指在语言中某些词汇或者句法成分只作为语言形式存在,不表达语义。羡余现象在汉语的语音、词汇、语法等方面都存在。汉语羡余否定现象是指含有“不、没、别”等否定成分,但并不表示否定的语言现象。汉语羡余否定语法点是泰国学生学习和使用的难点。随着汉语教育事业在泰国的蓬勃发展,泰国学生的汉语学习需求逐渐延伸到更高层面。汉语羡余否定知识的学习对
随着我国网络和信息技术基础设施建设的进一步完善,移动4G网络在近年来迅速普及。以支付宝、财付通为代表的第三方支付平台快速发展。第三方支付逐渐融入到人们的日常生活中。这其中以零售支付领域的发展和变化尤为明显。但近些年第三方支付的迅速发展对银行业产生实质的影响,让银行业面临新的挑战与冲击。研究表明,第三方支付平台与商业银行都具有双边市场特征。根据双边市场理论,平台间存在一定程度的互联互通可以提高社会的
近几年来,以深度神经网络为代表的深度学习算法取得了极大的成功。然而,深度学习仍存在训练样本大、计算资源要求高以及超参数调优难等问题。为此,研究人员开始探索以深度森林为代表的深度集成学习算法。然而,现有的深度森林训练算法是单机串行的,训练效率低且训练时间开销大。另一方面,现有的深度集成学习算法模型需要依赖人工构建,建模过程技术门槛较高,且费时费力。为此,需要研究自动化深度集成学习建模与结构搜索问题。
研究目的:肺癌是我国最常见的恶性肿瘤之一,其发病率及死亡率均居恶性肿瘤首位。肺癌高死亡率的原因之一在于早期肺癌常无明显临床症状而仅有影像学表现,绝大多数肺癌患者在疾病晚期才得以被诊断。近年来,低剂量计算机断层扫描(Low Dose Computed Tomography,LDCT)的广泛使用使得早期肺癌的检出率明显提高,但同时也大大提高了肺内结节的检出率,其中一类特定的肺内结节表现为孤立性肺结节(
自2005年我国股权分置改革以来,股票市场的流动性剧增,上市公司大股东减持行为频发,监管部门不断出台各项规章制度来规范大股东的减持行为。虽然2017年证监会出台的被称为史上最严减持规定对大股东减持情况有所遏制,但2018年、2019年大股东的减持热度仍不减。与此同时,资本市场上还涌现出各种大股东减持模式,有些是通过添加而组成新的减持模式,有些则是“另辟蹊径”。对于这样的情况不禁引发思考,大股东的减
近年来,随着云计算技术的迅猛发展,出现了一个新兴的商业领域,在线会计系统,即“云会计”。云会计的本质是将虚拟信息系统用在会计方面,即在互联网上构建云平台,为公司或个人提供会计核算、会计管理等会计相关的服务。相比于传统会计软件,云会计能为企业节约IT资源和相关人力投入,并提供成熟、可迭代的会计解决方案。这对于信息化发展中的企业,尤其是中小企业来说非常重要。中小企业的传统会计流程是以票据为中心的。本文
机器学习算法广泛应用于数据挖掘、计算机视觉、语音识别等各个方面。由于计算机硬件配置的差异性、机器学习模型训练过程的时效性、机器学习算法框架的差异性和模型环境配置的复杂性等问题,传统的机器学习模型普遍存在开发效率低下、硬件资源利用不充分等问题。同时,由于企业对模型训练的输入数据、产生的结果数据等具有较高安全性需求,数据传输和算法开发过程只能在内部系统中进行。因此,企业内部算法工程师迫切需要合适的内部
罗伯特·舒曼是德国历史上著名的作曲家和乐评家,是19世纪初期德国极具影响力的人物。当时的文学作品是他音乐创作的重要灵感来源,音乐思想和实践始终强调情感与表现,力求刻画出丰满多变的艺术形象。舒曼独树一帜的标题小品的创作手法,对德国乃至欧洲浪漫主义的发展作出了巨大的贡献。本文以舒曼的钢琴作品《幻想曲集》Op.12中的第二首小品《冲动》在音乐与演奏上的分析研究和体会为主线,对整个套曲的调式调性、曲式结构