法院文书中企业实体识别与分类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sh_duoduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着“互联网金融”的热潮,越来越多的企业决策者迫切需要利用更先进的信息处理方式来对海量的互联网数据进行抽取和分析,以便做出更好的决策。在这些海量数据之中,法院的文书类数据由于其准确性和权威性成为企业获取高价值信息的首要来源。命名实体识别技术是企业进行实体语义分析,实体关系抽取等工作的基础。目前主流的命名实体识别技术只是将实体分为人名、地名、机构名等,这使得实体的类型缺乏语义。同时,进行实体分类时过多依赖于人工特征和外部数据,使其通用性和健壮性得不到保证。针对这些缺点,本文提出一种企业实体更细粒度的划分方式,并且使用文本本身的语义构建特征,最后进行企业实体的分类。本文的主要工作包括三个方面:(1)法院文书中实体词长短不一,构词方式多样的特点,给实体识别工作带来诸多困难。针对这种现状,本文设计了一种改进的条件随机场模型,使用词典规则和支持向量机预先对实体的边界进行判断,之后将得出的边界结果作为加强特征引入到条件随机场模型中进行命名实体的识别。实验结果表明,在人工标注的5000条数据集上能够很大提高识别的召回率。(2)目前主流的命名实体分类研究中实体类别较少,不能满足于实体关系抽取等应用的需要。针对这种现状,本文对采集的数据进行分析,将法律文书的企业实体细化为15个类型,并标注了 6891条数据样本。(3)现有实体分类模型中过多依赖人工特征和外部数据,使其分类模型不具有良好的通用性。针对这种现状,本文提出一种实体向量化语义表示方法,在人工标注的法院文书数据中进行分类实验,实验表明其具有良好的分类表现。
其他文献
碳量子点是新型的零维碳基纳米材料中的一种。由于拥有优异的光学性质,较好的水溶性、低毒性、环境友好性及原料成本低和生物相容性好等许多优势,已经在生物成像、环境检测、
聚合诱导自组装(Polymerization-Induced Self-Assembly,PISA)是一种合成具有一定形貌、尺寸和表面化学性质嵌段共聚物(Block Copolymer,BCP)纳米粒子的通用方法。PISA兼具可控聚合和批量组装的优点,具有良好的工业化生产和应用潜力。通过RAFT调控的水溶液分散PISA可以形成各种形貌的嵌段共聚物纳米粒子,可用于杀菌、药物传输和纳米反应器等领域。近
铒镱共掺光纤放大器(EYDFA)能够有效的对1.5μm波段的激光进行放大,该波段的激光具有较低的光纤和大气传输损耗,并且具有―人眼安全‖的特点。近年来,随着激光焊接、激光工业和
本文主要研究了完备非紧黎曼流形上Lp(p>1)调和形式空间的维数问题.基于Bochner公式,通过对流形曲率的假设,运用截断函数法,散度定理,Sobolev不等式等得到了调和形式模长的积
化石燃料燃烧释放的CO_2是造成全球变暖的主要原因,化学链燃烧技术具有内分离CO_2的特性,发展前景良好。化学链燃烧反应器主要由空气反应器和燃料反应器组成,反应器设计对化学链燃烧效率具有重要的影响。目前,绝大部分化学链燃烧过程采用单级燃料反应器,固体燃料的转化率受到一定限制;空气反应器采用快速流化床,快速流化床内存在的“环核”气固流动结构降低了气固接触效率,不利于载氧体的氧化再生。针对单级燃料反应
自从工业革命以来,化石燃料的过度使用导致了温室气体(尤其是CO2)的过度排放,导致温室效应加剧和自然灾害频繁发生。从燃烧后的气体混合物(主要是CO2/N2)中选择性的捕捉CO2能够有效减少CO2的排放。除此之外,在燃烧前的气体(包括CH4/CO2和H2/CO2气体混合物)中分离出CO2对于气体的纯化和减少CO2的排放也有很强的实际意义。基于密度泛函理论,本文应用了一种向材料中引入外加负电荷和电场的
菊花(Chrysanthemum morifolium)是中国十大传统名花和世界四大切花之一,其中切花小菊因其花色花型丰富、着花繁密、开花整齐及花期长等特点在世界切花生产中占有重要地位。
当机械进入微观领域,表面力如粘附力与摩擦力等已经成为影响器件寿命与性能的关键因素。研究表明,微纳尺度下,摩擦能耗主要有声子耗散和电子耗散。目前对于电子耗散的影响尚不明确,而钛酸钡和PVDF作为压电材料,表面受力会产生极化电荷,是研究电子摩擦非常理想的材料。原子力显微镜(AFM)以其超高空间分辨率及超高力学灵敏度广泛应用于微纳尺度下材料的电学、力学等性能研究。因此,本论文基于AFM对钛酸钡和PVDF
聚合物太阳能电池具有成本低、可溶液加工、可制备成柔性和半透明器件制备等优点,近些年受到广泛的关注。聚合物太阳能电池的能量转化效率目前己突破15%,可以满足商业化使用的要求,但是为了更好的实现其商业化价值,进一步提高器件的能量转化效率和稳定性仍然是目前研究的重点。针对于上述两个问题,我们采用界面修饰的方法,选择性能更加优异的界面传输材料,以期制备器件效率更高、稳定性更好的聚合物太阳能电池。本文采用二
为了提高水蒸气重整生物质油制氢介孔Ni/MgO催化剂的活性,采用金属Pt对催化剂Ni/MgO进行修饰。制备了一系列不同Ni含量的Ni/MgO,经过筛选,在合适组成的基础上,制备了一系列不