基于语义的文本相似度算法研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户：gen19gu86

【摘要】

：

【作者】

：

郐媛媛

【出处】

：

计算机光盘软件与应用

【发表日期】

：

2014年9期

【关键词】

：

文本挖掘文本相似度语义

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：文本相似度算法研究一直是文本挖掘领域非常重要的算法，指采用一定的策略比较两个文本之间的相似程度，目前文本相似度算法已经在文本分类、文本聚类、自然语言处理等多个领域崭露头角。本文主要就语义角度出发对文本之间相似度进行界定。
　　关键词：文本挖掘；文本相似度；语义
　　中图分类号：TP311.13
　　文本之间相似度的度量一直是是文本挖掘领域研究的热点问题，优良的文本相似度算法可以更加精准的实现对文本之间相似度的界定。在文本分类、文本聚类和搜索引擎等文本处理领域，文本相似度算法占据着非常重要的地位。目前文本相似度算法有基于文本结构特征的相似度算法、基于关键词匹配的文本相似度算法和基于语义的文本相似度算法等，本文试图从语义的角度出发来阐释文本之间相似度。
　　1 HowNet简介
　　知网是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。是一部比较详尽的语义知识词典。相比于其它语义词典，其特点是基于世界知识来构建语义网络，并且摒弃了完全用树状结构来描述知识，而是采用了网状结构来描述知识。知网中用“义原”来描述概念，并以之作为最小意义单位。“义原”间层次结构如图1所示。
　　根据知网的网状结构特点，各个知网“义原”节点对应于各个网状节点，通过对知网逻辑节点进行梳理，各个“义原”之间关联性可以通过这种复杂的网状结构加以反映，各个节点之间具备逻辑层次关系，正是这种逻辑层次关系，得到“义原”之间语义关联性，如公式1所示。
　　自然界中词语通常都可以包含多个词义，知网中定义这个多个词义为概念（义项），每个概念可以通过多个“义原”按照不同的组合方式加以过程，则关键词之间语义关联性可以通过具有语义关联性的“义原”加以反映。
　　2 文本相似度算法
　　目前文本相似度算法多采用基于关键词的余弦相似度算法，算法思路如下：将文本进行关键词切分，并对经过切分的关键词进行权值计算，结合向量空间模型，将关键词进行维度填充，通过计算向量之间内积来定义文本之间相似度。假设文本D1和D2分别表示为D1=（t11，t12，…，t1n）和D2=（t21，t22，…t2n），相似度计算方法如公式2所示。
　　3 结束语
　　本文從语义的角度出发对文本之间相似度进行分析，在文本之间语义相似度进行阐述时，对语义工具HowNet进行了介绍，并且梳理了当前流行的基于余弦相似度的文本相似度的处理流程。
　　参考文献：
　　[1]马军红.分阶段融合的文本语义相似度计算方法[J].现代图书情报技术，2013（10）：20-26.
　　[2]王振振，何明，杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学，2013（12）：229-232.
　　[3]郭丽，刘磊.词汇语义相似度算法研究及应用[J].软件导刊，2013（07）：57-58.
　　作者简介：郐媛媛（1983.10-），女，辽宁沈阳人，图书馆中级职称，主要研究方向：图书馆管理。
　　作者单位：辽宁行政学院，沈阳 110161

其他文献

计算机硬件的日常维护及故障排除探讨

计算机作为一种高精密的电子产品，对于周围的环境和使用操作都有着很高的要求。很多未知的因素都有可能导致计算机的死机、蓝屏、重要文件丢失甚至引起整个计算机操作体系陷入

期刊

计算机硬件维护故障判断

计算机图形图像处理技术分析

随着现代化科学技术的快速发展,计算机图形图像处理技术也越来越成熟,Photoshop、CAE、CAD等计算机图形图像处理软件被广泛的应用在各个领域,为人们的生活、工作和学习提供了极大的便利。在未来的发展过程中,要不断改进和完善计算机图形图像处理技术,推动计算机图形图像处理技术更加广泛的应用和发展。本文简要介绍了计算机图形图像处理技术,阐述了计算机图形图像处理技术的应用。

期刊

计算机图形图像处理技术

数学教学的另一方面

根据数学教育教学中存在的问题，阐述了如何激发学生学习数学的兴趣，运用多层次，多元化的数学知识向学生展示数学的无究魅力，让学生在数学的海洋中体验到数学美和学习数学的乐趣。

期刊

数学教学数学美趣味数学学习兴趣高中教学改革

信息技术生产率矛盾浅析

８０年代提出的信息技术生产率矛盾问题已得到广泛的关注，信息技术对生产率可产生直接和间接作用。分析了矛盾形成的主要原因，给出了生产率检测模型，提出注重研究利用信息技术提高

期刊

信息技术生产率矛盾分析通用技术information technologyproductivityparadox analysisgeneral

高校招生改革的理性思考

高校招生改革是高校各项工作的首要内容,要把高校招生作为扩大内需,刺激经济增长的重要举措.扩招与择校是对传统招生制度的重要改革,但也存在一些政策、措施方面的问题.这就

期刊

高校招生改革市场经济高等教育国家计划reform of enrolment market economyeducational developme

计算机网络管理研究

随着科学技术的不断发展,计算机技术以及通信技术都得到了空前的进步,计算机网络管理融合了这两种技术,目的就是为了更加有效的提升网络效率,并使其在广阔的应用领域发挥更大

期刊

计算机网络管理趋势Computer Network management Trend

赵尔陆:从开国上将到“导弹内行”的曲折人生

【正】1952年,赵尔陆由华中军区参谋长出任共和国第二机械工业部首任部长。从此,我国国防工业现代化进程便与赵尔陆的名字紧密相连。他深入实

期刊

赵尔陆开国上将第二机械工业部华中军区毛泽东著作聂荣臻冀晋军区核武器试验基地一级解放勋

有关无线网络技术及其应用模式研究

摘要：近些年来，随着无线网络技术的进一步发展和应用，由于其灵活性强、可移动、可扩展等优势，因而已经在人们的生产及生活中得到了十分广泛的应用，因此，有关无线网络技术方面的研究也越来越多，应用前景十分广阔。本文从无线网络技术的优势分析出发，针对无线网络技术的有关内容及其应用模式进行了研究，对于进一步推动无线网络技术的发展及应用具有一定的参考价值。　　关键词：无线网络技术；优势；应用模式　　中图分类号

期刊

无线网络技术优势应用模式

多项举措扎实推进创先争优工作

今年以来，为深入贯彻落实党的十七大和十七届四中、五中全会精神，进一步深化拓展学习实践科学发展观活动成果，根据省、市创先争优活动安排部署，武安市工商局局以邓小平理论、“三

期刊

“三个代表”重要思想学习实践科学发展观五中全会精神党的十七大邓小平理论活动成果活动安排执法为民

试论北魏以来关东大族的“旁支”——以范阳卢氏、渤海高氏和赵郡李氏为中心

以个案分析的方法,对北魏时期关东大族"旁支"的形成、发展及其在北魏末年战乱中所起的作用等问题进行了多方面的探讨,进而揭示出关东世家大族宗族内部分化的特点,以及大族旁

期刊

关东大族宗族旁支主支the great families of Guandong Area patriarchal clans collateral

基于语义的文本相似度算法研究

与本文相关的学术论文