基于深度学习的对象实体相似度研究

来源 :山西师范大学 | 被引量 : 1次 | 上传用户:boge66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于机器学习的自然语言处理技术日渐应用于文本信息的挖掘中,其中对象实体相似度判别为文本挖掘提供了基础数据的支撑,是文本数据挖掘的关键环节。命名实体是分散在文本中的基础数据,多个命名实体构成对象实体,对象实体可以为相关机构提供更加有效的信息,可以扩充文本挖掘中对象的维度。文本对象实体相似度是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。为此做了以下工作:首先,分析了本文的研究背景,意义及研究现状;介绍了文本对象实体相似度研究的理论和方法,包括两种深度学习方法,分词方法,文本标注,开发工具。其次,本文采用了隐马尔可夫模型的维特比算法来对中文文本进行命名实体识别,识别出的命名实体为后续研究的基础数据;构建了对象实体模板,模板考虑了文本中命名实体的上下文关联的情况,增加了命名实体之间从属及距离的约束,并通过逻辑回归算法来训练约束关系的阈值,从而形成结构化的对象实体数据。最后,针对一篇文本中可能出现多个相似或相同的对象实体信息,对数据进行了是否相似的分类判断,文中采取有监督的算法来实现这个分类判断,使用了两个深度学习算法模型:一、基于BP神经网络的simhash相似度方法,采用simhash算法来计算两个数据间各个字段的相似度,并用BP神经网络有监督地训练算法模型,准确率达到80%;二、使用了有长短记忆能力的LSTM代替传统的循环神经网络求距离的方法对文本的相似度进行计算,准确率达到85%;通过实验发现LSTM文本相似度方法在对文本的判别正确率上更加有效,更加适合判断字段信息的结构化数据是否相似。
其他文献
为了获得更大容量的光传输,其中一种有效的方法是使用高阶调制格式和复用技术。但是高阶调制会带来系统光信噪比(OSNR)需求的增加,在高阶调制光纤传输系统中使用前向纠错(FEC
目的对于本次产妇阴道分娩出血进行相关因素以及产妇出血的预防措施进行相关的研究和探讨。方法对于本次研究对象,选取2016年6月至2017年6月在我院分娩的62例产妇。结果观察
2019年底开始爆发并持续至今的新型冠状病毒感染性肺炎疫情造成了广泛而严重的影响,且目前仍在持续中。在这个时刻,如何快速控制疫情、全力救治病人和保障人民群众身体健康成为
报纸
据美国之音报道 ,布什总统于 2 0 0 1年 1 0月初任命罗伯特·赖利为美国之音新任台长。赖利对美国之音的工作人员来说并不陌生。在过去 1 1年中 ,他一直在美国之音的领导机构
阐述推移质运动的特点,讨论推移质运动在河床变形、沙波、弯道演变等方面的作用以及对工程的影响。此外,分别从3个时期论述国内外推移质输移研究在理论分析、试验研究与河流原
化石燃料的燃烧产生了大量的温室气体二氧化碳(CO2),CO2的过度排放导致了严重的环境问题。然而CO2又是一种廉价、无毒、丰富的C1资源,可以将其作为原料生产各种化工产品。CO2和
交付通常被称为公示方式,一般将其理解为外部展示的可识别性,这是基于物权为绝对权的对世性而做出的误解,物权的本质应为支配权。基于实现支配权效果的目的,在“名义加形式”
超现实主义艺术理念是对人们内在心理和精神世界的一项探索,在动画场景设计当中应用超现实主义艺术理念对于动画艺术作品具有十分重要的意义。本文对超现实主义艺术理念在动
法国大作家福楼拜曾这样说过:“我费尽千辛万苦,为自己的项链选择珍珠,只是我忘记了一样──线。”的确,如果没有一条线把这些珍珠串起来,那么,再珍贵的珍珠也会散掉。可以不夸张地
通过四川省眉山市“三线一单”编制试点工作的开展,探索出适合四川省情、尺度得当、具有可操作性的环境管控单元划分方法和适用技术方法以及生态环境准入清单制定原则,为全省