论文部分内容阅读
随着近年来互联网技术的快速进步和发展,文本信息量呈现爆炸性增长的趋势,作为信息的重要载体,文本处理成为信息研究的一个重要研究课题。文本之间语义相关度计算的相关研究是文本研究的一个重要方向,受到国内外信息领域研究者越来越多的关注。作为一种语义资源描述和推理工具,本体在诸多语义研究领域都得到了广泛的应用和研究,比如,自然语言处理、知识管理、知识工程、信息集成等。在本体论的基础上,领域本体是对特定领域的本体研究,可以对小范围内知识体系结构中概念和概念之间的关联关系进行更加详尽的描述和深入的发现。语义相关度的计算研究是本体映射推理、语义分析、数据分析和挖掘、知识管理和内容推荐等领域的研究基础。基于本体计算概念之间的语义相关度是一种常用的相关度计算方法。文本数据是非结构化的数据,类型庞杂且结构多样化,计算机难以理解和处理原始的文本信息。文本之间语义相关度的计算研究主要集中在以概念为基本处理单元来计算文本相关度的方法上,精准高效的对网页进行信息抽取往往是文本语义相关度计算的第一步。本文将采用知识点作为文本特征词,进行文本知识点抽取,然后通过计算文本知识点集合之间的语义相关度衡量文本之间的语义相关度。本文的主要工作和创新点如下:(1)构建高血压领域本体。本文以《中国高血压防治指南2010》作为高血压知识参考依据,结合“七步法”,采用Protege软件进行高血压领域本体的构建,为接下来概念语义相关度的计算研究提供数据基础。(2)提出一个综合多个维度的概念语义相关度计算方法LCA。文章研究了国内外概念语义相关度的相关研究理论,分析了基于概念距离的语义相关度、基于信息内容的语义相关度中存在的问题,并综合基于特征属性的语义相关度计算等三种方法提出一种基于本体的混合的概念语义相关度计算方法,并结合高血压领域本体进行权值估算。然后通过对比实验验证该方法的准确性。(3)提出一个基于本体和知识点的文本语义相关度计算模型LCA-KP,将知识点和基于本体的概念之间相关度相结合,以计算文本之间的语义相关度。在基于高血压的领域本体上进行实验分析,证明该方法在衡量文本语义相关度上具有一定的有效性。本研究是对基于高血压的文本语义相关度计算方法研究中一次综合性的研究,试图满足用户在较为专业的领域的对文本自动处理的需求。文中提及的文本语义相关度计算模型也可以推广到其他领域的相关度计算中。