基于术语提取的跨语言信息匹配技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wenxiaoyao1214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,术语在各个领域中被广泛的使用,领域术语提取技术受到学者们的密切关注,已经成为自然语言处理领域的一项重要任务。本文将术语提取技术应用到跨语言信息匹配技术中,解决如何在中-英文文本之间建立联系的难点。本文在分析和总结国内外领域术语提取研究现状和成果的基础上,提出了一种基于多特征相融合的领域术语提取方法。针对术语构词规则是根据词语词性问题,该方法首先利用自然语言处理技术对中文文本进行预处理,针对句子进行词性标注,为下一步的术语提取打下基础。在该过程中,该方法首先采用术语的构词规则对预处理结果进行词语过滤,然后通过信息熵确定词语的边界,针对信息熵无法提取出低频词语这一问题,采用领域语料库中词语的IDF值来衡量术语的领域相关度,将两组词语进行加权处理,最后根据设定的阈值,根据术语得分情况对候选术语进行取舍,这一算法解决了领域术语提取问题。然后在获取的领域术语的基础上,根据术语的领域性特点引入了词语共现这一概念,并结合术语翻译方法,对中英文术语进行对齐,得到术语在本领域对应的翻译。最后利用中英文术语对齐结果构建检索式,建立了中文与英文之间的联系,为了提高检索效率对英文文本建立索引,将检索式在英文文本中进行全文检索,根据匹配结果确定最匹配的英文文本,从而达到利用领域术语对齐结果实现跨语言信息检索的目的。最后,本文在实验数据集上进行了反复实验验证,并通过对比本文所提方法和其他的方法,验证了本文所提出方法的有效性。
其他文献
研究题目来源于国家“十一五”科技支撑计划课题“勘察设计企业信息化关键技术研究与应用”的子课题“基于SOA技术的勘察设计企业应用软件架构系统”。Web服务具有开放性、互
近年来,随着电子电路和计算机技术的发展,嵌入式技术广泛应用于工业领域各个方面,测控系统基本上是一个嵌入式系统和上层通用计算机的结合体。工业设备逐步实现了自动化和智
P2P技术是一种资源分散存储与共享的新兴技术。其体系结构与C/S体系架构相对应,资源存储上化集中为分布,资源使用上化分布为集中。因此,它是一种很有创意的技术。该技术一出
随着互联网技术和多媒体技术的发展,以数字图像为代表的多媒体数字视觉信息量剧增,并且渗透到人们生产生活的各个方面,因此,如何有效地获取和使用图像信息,成为了当前科学领域以及
随着多媒体技术的飞速发展,数字多媒体信息的应用得到了很大普及,越来越多的人享受到了数字多媒体信息给人们带来的便利。然而凡事有利也有三分弊,通过网络和其他渠道便利地
随着天气预报技术的发展,数值预报产品日益丰富,预报方法多种多样。在实际应用中,对每个具体的问题,各种预报方法得出的结果通常是不一致的,因而不知道如何将它们统一起来。
学位
随着科技的进步和时代的发展,移动电话的用户群体正在以我们无法想象的速度增加着。现今的我们很难想象没有无线网络的日子将如何度过,无线通信已经像空气、水和电一样,深深的扎
当代是共享信息的时代,随手移动端的发展和网络普及化,微博成为人们生活中一种不可或缺获取信息的便捷途径,它可以实现与他人分享、交流、互动信息等功能。然而随着微博消息
航天器的应用和发展历程表明,航天器表面充电引发静电放电是导致航天器异常和故障的重要原因。因此,在航天器设计和应用中,必须对航天器表面电位采取必要的控制和防护措施,而