论文部分内容阅读
随着计算机在个人用户的大量普及和互联网技术的飞速发展,网络用户和网站数量呈现出爆炸式的增长方式,于是网络上的信息也以海量方式增长如何从网络上的海量信息中准确的提取出所需要的信息是如今的信息处理技术所面临的一个巨大挑战,传统的基于字符串匹配的信息检索方式已经不能满足信息处理的需求,基于语义的信息处理方式应运而生词语语义相似度计算是自然语言处理智能检索文本聚类等领域的一个基本问题词语语义相似度计算主要有两种方式:根据语言学家规定的知识结构的计算方式,比如语义词典或语义网络,即主观方式和根据客观个体形成大规模语料库的计算方式,即客观的计算方式主观的语义相似度计算方式主要是根据语言学家对于词语的定义信息进行分析,然后根据这些信息的特点进行相似度计算客观的语义相似度计算方式主要根据词语所处的语料库所提供的语境运用统计方式进行相似度计算本文通过研究基于ǎ知网ǐ的词语语义主观相似度算法和基于大规模语料库的词语语义客观相似度算法,提出一种改进的主客观相结合词语语义相似度算法,在计算过程中排除某些干扰因素使得词语相似度计算结果在符合人主观概念和客观语境方面都得到了较好的改善文本是计算机与互联网世界重要的信息载体之一,文本相似度计算是文本分类与文本聚类等文本信息处理方式的基础本文对文本相似度算法进行研究提出一种双层次的文本相似度算法本文将文本信息分为两个层次的信息:题目信息与文本内容信息,分别求得两部分信息的相似度,最后相结合得到最终的文本相似度在计算题目信息相似度与文本内容信息相似度时利用上文提到的改进的主客观结合的词语语义相似度算法,使得得到的文本的相似度既可以较为符合主观概念也能够符合客观语境对于以上的研究的内容进行了实验平台的搭建,得出实验结果并进行分析和对比,得出本文所提出的方法在词语与文本的语义相似度计算方面得到了一定的改善