融合多源特征和数据的汉语分词领域移植研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:a5b4123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,目前汉语分词在封闭领域上已经达到了很高的性能。然而,当应用场景由封闭领域切换到开放领域时,分词性能会显著下降。本文从特征和数据两方面出发,尝试提升模型本身的数据拟合能力以及扩大训练语料的数据规模。以下是本文的主要研究内容:(1)利用额外特征提升分词性能汉字是形声字,每个汉字都有自己独特的图形表示和语音信息。字的五笔编码描述了汉字的字形信息,很多语义相近的字都存在相似的字体结构。多音字在不同语境下会有不同的读音,因此字的拼音也传达了字的语义信息。除此之外,领域移植场景下,一些特定领域的专业词汇都遵循相同的构词规则。因此,我们充分挖掘额外特征,尝试在神经网络模型中加入字的五笔表示,字的拼音信息以及传统离散特征来提升基准模型本身的性能。(2)利用额外弱标注数据提升分词性能针对领域移植场景下全标注训练语料领域覆盖面窄且标注成本高的缺点,我们着手于弱标注语料库的的构建。一方面,我们从标注数据的获取、标注系统的构建以及标注规范的制定三个角度出发制定了科学的标注体系,便于获取高质量的人工标注弱标注数据。另一方面,我们提出了一种基于目标领域无标注数据的数据筛选方法用来过滤网页弱标注数据。虽然这两者都可以明显提升汉语分词领域移植的性能,但是由于弱标注数据本身所包含的分词信息少,所以需要在训练数据中引入大量弱标注数据,这也导致时间开销变大。(3)利用额外异构数据提升分词性能针对弱标注数据包含分词信息少这一缺点,我们考虑使用额外的全标注数据来提升分词性能。目前主流的使用多源异构数据的方法都存在模型较复杂或者错误传递的缺点。我们提出了基于语料特征的方法,该方法在基本不修改模型且不引入噪声数据的情况下,可以明显提升分词性能。最后,我们将基于语料特征的方法与多任务学习的方法进行对比,证明了我们的方法可以达到前人的性能且比前人的方法简单高效。综上所述,本文所提出的的方法可以明显提升分词领域移植任务的性能,也衷心希望我们所提出的方法可以帮助提升其他自然语言处理任务的性能。
其他文献
准确的降水估算对区域乃至全球尺度上的水文模拟、气候监测以及灾害防治具有十分重要的意义。卫星遥感降水数据产品作为一种监测降水的全新手段,不仅弥补了雷达和地面台站在技术手段上的局限性,更填补了在人迹罕至区域的数据空白。本文以长江流域内2014年至2017年224个气象台站的实测降水资料为真值,应用克里金插值法、双线性插值法、列联表等方法,从不同时空角度比较了新一代GPM IMERG v5卫星降水产品以
水汽作为地球大气中重要的组成气体,其不仅是天空中的云和地面上的雨形成的重要的物质基础,也是地球气候变化以及洪水灾害等问题发生的重点监测对象之一,因此探测大气中的水
类脂A是脂多糖的重要活性成分,其结构的变化将影响革兰氏阴性菌细胞外膜性质,从而导致细菌耐药性和毒力的变化。磷酸乙醇胺转移酶(EptA)是类脂A的结构修饰酶。磷酸乙醇胺基团
现阶段,基层公务员在我国公务员队伍中的占比较大,是政府职能的具体执行者,他们同基层群众交往最多,履职能力的高低对政府部门的公信力影响最大,因此,如何通过行之有效的绩效
我国作为一个人口众多的国家,农民占总人口的比重最大,所以,“三农”问题一直深受国家的重视。“三农”问题的核心是农民的问题,其实质是农民生存的问题,与农民生存密不可分
随着水体中检出环境激素类物质(EDCs)的情况越来越严重,该类物质对水生生态环境系统的危害影响逐渐受到国内外的高度重视。摇蚊作为水-沉积物系统中典型的模式生物,由于其对
随着科学技术的发展,开展海洋相关领域科学研究的需求不断增长,然而海洋装备的发展是支持相关科学研究的重要举措。目前,海洋生态环境和气候变化的研究主要有两种途径:船舶现
毫米波频段是介于30 GHz到300 GHz之间,其频段高,所以可利用的频带宽,而且携带的信息容量大;波长介于1 mm到10 mm之间,其波长短,所以具有很强的穿透性。由于其宽频带波长短的
我国是全国各族人民共同缔造的统一的多民族国家,多民族国家普遍面临着把诸多存在差异的民族整合到统一的国家中的任务。对于我国少数民族来说,其民族认同不仅包括对对中华民
糖尿病患者的症状主要是胰岛素不能正常在靶细胞中发挥其作用或者出现胰岛素不足的情况,这些引发了单糖、脂肪和蛋白质转化失调,进而水、电解质的代谢紊乱成为全身性疾病。糖