基于深度学习的新词发现方法研究

来源 :北方工业大学 | 被引量 : 1次 | 上传用户:hwqcy1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新词指的是在词典中不曾存在,但现在被人们广泛使用的词语。随着互联网的飞速发展,大量新词也随之涌现。这些新词的出现给诸多自然语言处理任务带来了挑战,因此新词发现是存在一定价值与意义的。传统新词发现方法通过总结新词模板与统计特征提取新词,但其只能针对于特定的领域进行新词发现,或是只能提取长度较短的新词语。针对以上问题,本文提出了一种将深度学习和新词发现相结合的方法,在BiLSTM+CRF模型上融合了多特征来进行新词发现任务。该模型可以通过提取出词语之间的规律关系进行新词发现,摆脱了领域和新词长度的局限性。本文的主要工作分为以下几点:1.提出一种将多个词语特征与Bi-LSTM+CRF模型相融合的算法。分别将四种词语特征:词性、词长、上下文信息熵和词语间凝固度加入到模型之中,又考虑到特征之间的相互影响,将词语特征进行不同数量的组合并加入模型之中,观察模型的预测效果;考虑到在特征的融合过程中,每个特征所占有的权重大小直接决定了该特征对于模型的影响,通过改变特征向量长度的方式对其权重进行控制,并观察模型效果进行调优;考虑到向模型中输入的文本长度会影响模型从数据中获取信息的充分性,将不同长度的文本输入到模型之中,对模型进行调优。2.提出向Bi-LSTM+CRF模型中加入义原特征的方法。考虑到词语在不同语境下的歧义问题,使用SPWE模型对不同词语在hownet数据集上的义原进行推荐,并将所得到的义原作为特征加入到模型之中,让模型可以对词语进行更为精准的语义理解,消除歧义,从而使模型的预测效果得以提升。最后为了验证融合多特征的Bi-LSTM模型的效果,本文分别与未融合特征的Bi-LSTM模型、用于新词发现的CRF模型、nlpir新词发现模型进行了比较。结果证明,本文所用模型的预测效果表现更优。这一结果也证明了新词发现和深度学习结合是非常有效的方法。
其他文献
在图像生成领域,人脸老化是一个重要的研究方向,该任务在跨年龄识别研究领域以及当前社会泛娱乐应用上都有非常高的使用价值。不过,该任务目前仍旧存在各种困难。这些困难包括:构建数据集的过程中缺乏同一人在较长的年龄范围内的标签化人脸图像、面向该任务的深度学习网络难以训练以及生成图像与原人脸图像的身份信息难以保留等。本文的主要目标是在确保跨年龄人脸生成任务完好完成的情况下,更有效的保留人脸本身的身份信息。基
近年来,大型钢结构模块化技术在我国得到应用,但是石化钢框架模块化技术研究相对较少,缺少相应技术标准,本文结合某裂解炉结构对石化钢框架进行了模块划分、运输和吊装方面的模块化性能研究。(1)结合模块划分理论研究确定石化钢框架模块划分方法,建立了满足结构功能性、整体框架稳定性、项目成本经济性、运输施工合理性、安装就位易操作性等条件下的划分标准。根据裂解炉工艺特点和结构功能要求,确定了炉体模块、辐射模块、
互联网技术的蓬勃发展使得信息数据量呈指数爆炸型增长,如何准确地从海量文本中获取到有效信息以及如何将非结构化数据转换成结构化数据成为研究热点和难点,命名实体识别是其中的一项基础研究。命名实体识别旨在从自然语言文本中识别并提取出特定命名实体,以便进行后续自然语言理解和生成任务。传统的命名实体识别任务基于中文分词进行,分词错误会延续整个任务过程,错误传播会导致识别性能下降,模型难以充分提取长语句序列中潜
近年来,随着钱币市场不断升温,越来越多的人开始关注收藏币。采用传统人工方式对收藏币进行分拣和识别,人工和设备成本较高,并且长时间不断重复容易造成身体和视觉上的疲劳,影响身心健康。本文开发了一套收藏币包装盒拍照机器人控制系统,可实现对收藏币包装盒夹取、升降、定位、翻转和图像采集等一系列全自动拍照工艺流程。构建了“PC+工业相机+嵌入式控制器”的控制系统总体架构。PC端作为上位机负责的人机交互、数据通
大数据分析、处理技术是计算机领域热点研究问题之一。然而,大数据往往伴随具体业务信息和商业机密,科研人员很难获得有效的大数据。因此,如何根据有限的真实数据生成仿真大数据的技术成为学术界需要研究和解决的问题。具体体现在:构建大数据分析的机器学习模型时需要大量的训练数据,大数据处理系统需要大量的测试用例集等等。针对上述技术需求,本文讨论两种大数据集生成算法和应用技术,包括:离散和级联大数据生成算法和北京
众所周知,风是一种非常常见的自然现象,风速风向也是非常重要的气象参数。风速风向的测量对于航海、航空、科学研究、风力发电以及工农业生产都具有重要意义。传统的机械式测风仪器难以满足众多领域对于风速风向的高精度测量要求,微电子技术的飞速发展和软件算法的改进使得时间测量精度和计算机的处理能力得到大幅提高,出现了超声波测风仪等高精度的测风设备,与传统的测风设备相比无机械磨损、精度高、能适应更加复杂的工作环境
辊弯成形是一种将金属板料连续地通过轧机,横向弯曲成所需要横截面形状的塑性加工技术,具有成形精度高、能大批量连续生产等优点。微成形工艺是生产至少两个方向处于亚毫米范围零件的塑性制造工艺。微型构件市场需求的显著增加,极大地推动了微成形技术的发展。为了实现对具有微小截面特征的细长金属零件的高效率连续生产,研究者们提出了微辊弯成形工艺。目前对传统辊弯成形的研究已经比较深入,但对刚起步的微辊弯成形中材料的复
水资源的回收再利用能够有效解决水资源短缺的问题,水资源再利用包括很多复杂工序,其中利用沉淀效应去除水中杂质是必不可少的一环。但这也会造成沉淀池中淤泥的堆积,为保证水资源再利用的持续进行需对沉淀池中的淤泥进行定期清理,因此需要有一种设备能够实时监测沉淀池中淤泥的高度。针对上述问题,本课题设计了一种投入式超声波泥位测量系统以实现沉淀池泥水界面的检测工作。为适应工业生产现场的复杂环境,该系统应具有较高的
云计算的高虚拟化、高扩展性和廉价性等优势,使得个人和企业愿意把本地数据的存储和计算外包给云端服务器。然而,数据的隐私性和完整性问题严重影响着云存储技术的应用推广。出于安全性考虑,数据在外包到云服务器之前通常需要进行加密。然而,加密却破坏了数据文件之间的关联性,给用户的文件搜索管理带来巨大挑战。可搜索加密技术的出现使得用户能够对密文实现关键词的搜索。现有可搜索加密方案通常假设云服务器是诚实且好奇的,
推荐系统作为电子商务平台的重要组成部分之一,能够有效地捕获用户的兴趣特征,实现个性化推荐任务。作为推荐系统的重要分支,序列型推荐系统能够进一步捕获用户兴趣特征的动态变化,实现实时推荐任务。尽管经典的序列型推荐方法能够较好的为用户提供推荐服务,但是本文认为这些方法依旧存在一些缺陷。一方面,这些方法在对用户兴趣建模时往往难以捕获用户行为序列项目间的复杂转换关系以及用户对于不同项目的不同关注程度;另一方