论文部分内容阅读
随着智能手机、智能家居、智慧城市等这些词语的频繁出现,我们知道,智能化的时代已经离我们越来越近了。自然语言处理作为人工智能的一部分,在现今生活的各个方面发挥着重要的作用。比如语音输入与识别技术、文本聚类与分类技术、主观题自动评测技术、信息检索等。 本文研究的词语语义相似度技术就是主观题自动评测的关键技术。首先,本文分析了词语相似度的国内外研究现状,重点分析了以知网为背景知识的词语相似度算法和以维基百科为背景知识的词语相似度算法;其次,分别对基于这两种不同背景知识的的词语相似度计算方法进行了改进,提出了基于知网多特征融合的词语相似度算法和综合维基百科三种资源的词语相似度算法,基于知网的多特征融合算法考虑了义原的最短距离、义原本身的深度、公共父节点的深度以及义原所处层次的密度,综合维基百科三种资源的算法线性综合了类别资源、链接资源和文本资源的相似度计算结果;再次,分析改进后基于知网的词语相似度算法和基于维基百科的词语相似度算法的优缺点,提出了融合知网和维基百科的词语语义相似度算法,并通过实验证明了该算法的有效性,相比传统算法,性能有了较大的提升;最后,把融合后的词汇相似度算法运用的文本相似度的计算中,提出基于最大匹配法的文本相似度计算方法,并构建了“大学生信息安全竞赛平台”主观题自动评分系统模块的雏形,经过测试,较之前基于VSM的余弦相似度算法,准确度有了很大的提升。本文实现了“词语相似度-文本相似度-实际应用”的三级结构。