【摘 要】
:
词语和句子的相似度计算在信息检索、文本分类、问答系统以及基于实例的机器翻译等各领域中都有着广泛的应用。作为目前讨论的重点,本文主要从语义的角度出发对基于“知网”
论文部分内容阅读
词语和句子的相似度计算在信息检索、文本分类、问答系统以及基于实例的机器翻译等各领域中都有着广泛的应用。作为目前讨论的重点,本文主要从语义的角度出发对基于“知网”的词语及句子相似度计算方法进行了深入的研究。基于“知网”的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配对作为运算的基本单位,最终的整体相似度可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对内部信息的重复和结构的不合理。本论文正是针对该问题,在深入分析“知网”体系结构的基础上,对词语和句子的相似度计算以及词义消歧做了创新性和探索性的研究。主要内容为:1.详细研究了当前基于“知网”的义原相似度计算方法。这类义原相似度计算机制往往是通过计算两个义原在上下位层次关系树中的路径距离来得到义原之间的相似度,没有或者很少考虑义原在层次树中的深度,本文综合考虑了义原间的路径距离以及义原层次树的深度,从义原所包含的信息结点数量出发,得到了一种新的义原相似度计算方法。2.详细研究了目前常用的词语及句子相似度计算方法,并把讨论的重点放在了基于“知网”的词语及句子相似度计算上面。文章从信息论的角度出发,在上文所提出的义原相似度算法基础上,分别对两个义原集合之间的共有信息和差异信息进行统计,并据此得出两个义原集合之间的相似度,最终的词语(句子)相似度计算是以义原集合为计算单位的。3.研究了目前常用的词义消歧算法的基本原理和具体方法。在“知网”提供的搭配实例以及上文中提出的句子相似度算法基础上,得到了一种简便快捷的词义消歧方法。4.具体分析了自动问答系统构建的技术方法和模块架构,以基于常问问题集的问答系统模型为实例,体现了词语及句子相似度在具体应用领域中的重要性。
其他文献
现代计算机通信网正朝着ATM交换网和宽带综合业务数字网(B-ISDN)的方向发展,其服务业务包括话音、数据、传真和视频等。每种业务都有不同的统计特性并需要不同的服务质量(QoS)
与传统的单机系统相比,集群系统具有更高的可扩展性、更高的性能价格比和更高的可靠性,因而愈来愈被广泛地应用到国民经济的各个领域.随着集群系统规模的不断扩大,集群系统内
该文旨在全面深入地研究实时数据库中的主动规则系统.在分析现有规则模型的基础上,提出一种基于图的规则模型E-RG,并全方位地研究该规则模型的应用优势以及该规则系统的理论
Internet的发展和现代教育的要求促进了远程教育的发展,基于Internet虚拟实验室是一种重要教学资源的原因,研究其快速有效的开发方法具有重要意义。 本文针对目前已有虚拟实
本文通过基于Web的各种开发技术的分析,结合西安航空发动机公司计划信息系统的开发实例,系统阐述了构建基于Web的管理信息系统设计开发方法。文中重点研究了ASP技术,组件技术,XML
在线支付是电子商务的核心技术之一.由于它的安全性具有特别重要的意义,在线支付技术一直受到学术界的高度重视和广泛研究,安全电子交易协议(SET)提出了一种在开放网络环境下
桌面视频会议系统是计算机技术与通信技术相结合的产物,它作为多媒体通信技术的一个重要组成部分,是随着Internet/Intranet的迅猛发展,而得广泛的应用。针对现有视频会议系统的不
DIOMS是一种新的磁盘I/O混合调度策略,它采用两层调度结构:在第一层中,分别接受和处理实时请求和非实时请求.视频数据的磁盘请求进入实时请求队列,采用最小空闲期优先(Least
该文是以天津理工学院在天津市科委立项的高等职业远程教育信息服务系统项目为背景,针对远程教育支撑平台进行设计和实现.论文的主要成果如下:第一、该文首先讲述了远程教学的
进入90年代以来,基于传统的数据库理论和技术的数据库系统已满足不了信息时代的要求,因此必须采用更为先进理论和技术发展化工数据库系统。 两层模型曾经具有创新意义,因为它