基于知网和维基百科词语相似度的研究与应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:cuidayue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机、智能家居、智慧城市等这些词语的频繁出现,我们知道,智能化的时代已经离我们越来越近了。自然语言处理作为人工智能的一部分,在现今生活的各个方面发挥着重要的作用。比如语音输入与识别技术、文本聚类与分类技术、主观题自动评测技术、信息检索等。  本文研究的词语语义相似度技术就是主观题自动评测的关键技术。首先,本文分析了词语相似度的国内外研究现状,重点分析了以知网为背景知识的词语相似度算法和以维基百科为背景知识的词语相似度算法;其次,分别对基于这两种不同背景知识的的词语相似度计算方法进行了改进,提出了基于知网多特征融合的词语相似度算法和综合维基百科三种资源的词语相似度算法,基于知网的多特征融合算法考虑了义原的最短距离、义原本身的深度、公共父节点的深度以及义原所处层次的密度,综合维基百科三种资源的算法线性综合了类别资源、链接资源和文本资源的相似度计算结果;再次,分析改进后基于知网的词语相似度算法和基于维基百科的词语相似度算法的优缺点,提出了融合知网和维基百科的词语语义相似度算法,并通过实验证明了该算法的有效性,相比传统算法,性能有了较大的提升;最后,把融合后的词汇相似度算法运用的文本相似度的计算中,提出基于最大匹配法的文本相似度计算方法,并构建了“大学生信息安全竞赛平台”主观题自动评分系统模块的雏形,经过测试,较之前基于VSM的余弦相似度算法,准确度有了很大的提升。本文实现了“词语相似度-文本相似度-实际应用”的三级结构。
其他文献
本文探讨云计算中使用的动态环境,解决了一些与在这种环境下工作流调度相关的主要问题。由于动态环境中的工作流调度是基于不同的标准完成的,因此不同的目标会造成多种不同的结
随着这几年以来计算机技术的飞速发展,对于实现符合日常人机交流习惯的新型交互手段的研究获得喜人的进展。虽然目前多以鼠标、键盘等传统的输入设备作为人机交互的媒介,但随着
现如今中间件的应用遍布各个领域,而且中间件的种类日益繁多,其中消息中间件所扮演的角色是越来越重要。消息中间件采用客户端和服务端进行松散耦合的异步通信方式,发送程序
在手机多媒体应用越来越普遍的现在,人们更关心的是在不耗费太多有限的手机存储以及运算资源的基础上能不能对使用手机拍摄出的照片实现有效、合理、符合需求的管理,以及照片
随着我国社会的快速发展,居民出行量成倍增长,城市交通越来越拥挤,大力发展公共交通,提高公共交通在整个居民出行中的分担率是改善城市交通问题的一个有效手段。其中,公交线
汽车电子嵌入式实时操作系统是汽车电子控制系统关键核心技术之一,也是国内外汽车电子产品竞争的焦点。为了满足我国汽车电子产业技术发展的需要,我校汽车电子与嵌入式系统研究
本论文中,首先提出了一种计算复杂性低而又有效的截断奇异值分解方法解决L2范数约束问题,用L曲线方法确定正则化参数,基于离体狗心脏数据集进行了实验,重建出了相应的心外膜电位
系统发育分析是生物学的一个重要研究领域,旨在重建所有物种的进化历史。系统发育树是一棵描绘物种进化关系的树,也叫做进化树。目前重建进化树的方法可以分为两大类:1)基于最优
MapReduce是一种并行分布式计算模型,用于大规模数据集的并行运算。它具有良好的可扩展性、容错性、可用性,现在,无论在工业界还是在学术界都得到了广泛的应用。MapReduce比较热
随着Internet技术的迅速发展,WWW的应用也越来越多,Internet上信息资源分布越来越广泛,种类越来越多,www已经成为大多数人获取信息的主要方式,但其信息其分布的广泛性和大量