论文部分内容阅读
摘 要:文本相似度算法研究一直是文本挖掘领域非常重要的算法,指采用一定的策略比较两个文本之间的相似程度,目前文本相似度算法已经在文本分类、文本聚类、自然语言处理等多个领域崭露头角。本文主要就语义角度出发对文本之间相似度进行界定。
关键词:文本挖掘;文本相似度;语义
中图分类号:TP311.13
文本之间相似度的度量一直是是文本挖掘领域研究的热点问题,优良的文本相似度算法可以更加精准的实现对文本之间相似度的界定。在文本分类、文本聚类和搜索引擎等文本处理领域,文本相似度算法占据着非常重要的地位。目前文本相似度算法有基于文本结构特征的相似度算法、基于关键词匹配的文本相似度算法和基于语义的文本相似度算法等,本文试图从语义的角度出发来阐释文本之间相似度。
1 HowNet简介
知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。是一部比较详尽的语义知识词典。相比于其它语义词典,其特点是基于世界知识来构建语义网络,并且摒弃了完全用树状结构来描述知识,而是采用了网状结构来描述知识。知网中用“义原”来描述概念,并以之作为最小意义单位。“义原”间层次结构如图1所示。
根据知网的网状结构特点,各个知网“义原”节点对应于各个网状节点,通过对知网逻辑节点进行梳理,各个“义原”之间关联性可以通过这种复杂的网状结构加以反映,各个节点之间具备逻辑层次关系,正是这种逻辑层次关系,得到“义原”之间语义关联性,如公式1所示。
自然界中词语通常都可以包含多个词义,知网中定义这个多个词义为概念(义项),每个概念可以通过多个“义原”按照不同的组合方式加以过程,则关键词之间语义关联性可以通过具有语义关联性的“义原”加以反映。
2 文本相似度算法
目前文本相似度算法多采用基于关键词的余弦相似度算法,算法思路如下:将文本进行关键词切分,并对经过切分的关键词进行权值计算,结合向量空间模型,将关键词进行维度填充,通过计算向量之间内积来定义文本之间相似度。假设文本D1和D2分别表示为D1=(t11,t12,…,t1n)和D2=(t21,t22,…t2n),相似度计算方法如公式2所示。
3 结束语
本文從语义的角度出发对文本之间相似度进行分析,在文本之间语义相似度进行阐述时,对语义工具HowNet进行了介绍,并且梳理了当前流行的基于余弦相似度的文本相似度的处理流程。
参考文献:
[1]马军红.分阶段融合的文本语义相似度计算方法[J].现代图书情报技术,2013(10):20-26.
[2]王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013(12):229-232.
[3]郭丽,刘磊.词汇语义相似度算法研究及应用[J].软件导刊,2013(07):57-58.
作者简介:郐媛媛(1983.10-),女,辽宁沈阳人,图书馆中级职称,主要研究方向:图书馆管理。
作者单位:辽宁行政学院,沈阳 110161
关键词:文本挖掘;文本相似度;语义
中图分类号:TP311.13
文本之间相似度的度量一直是是文本挖掘领域研究的热点问题,优良的文本相似度算法可以更加精准的实现对文本之间相似度的界定。在文本分类、文本聚类和搜索引擎等文本处理领域,文本相似度算法占据着非常重要的地位。目前文本相似度算法有基于文本结构特征的相似度算法、基于关键词匹配的文本相似度算法和基于语义的文本相似度算法等,本文试图从语义的角度出发来阐释文本之间相似度。
1 HowNet简介
知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。是一部比较详尽的语义知识词典。相比于其它语义词典,其特点是基于世界知识来构建语义网络,并且摒弃了完全用树状结构来描述知识,而是采用了网状结构来描述知识。知网中用“义原”来描述概念,并以之作为最小意义单位。“义原”间层次结构如图1所示。
根据知网的网状结构特点,各个知网“义原”节点对应于各个网状节点,通过对知网逻辑节点进行梳理,各个“义原”之间关联性可以通过这种复杂的网状结构加以反映,各个节点之间具备逻辑层次关系,正是这种逻辑层次关系,得到“义原”之间语义关联性,如公式1所示。
自然界中词语通常都可以包含多个词义,知网中定义这个多个词义为概念(义项),每个概念可以通过多个“义原”按照不同的组合方式加以过程,则关键词之间语义关联性可以通过具有语义关联性的“义原”加以反映。
2 文本相似度算法
目前文本相似度算法多采用基于关键词的余弦相似度算法,算法思路如下:将文本进行关键词切分,并对经过切分的关键词进行权值计算,结合向量空间模型,将关键词进行维度填充,通过计算向量之间内积来定义文本之间相似度。假设文本D1和D2分别表示为D1=(t11,t12,…,t1n)和D2=(t21,t22,…t2n),相似度计算方法如公式2所示。
3 结束语
本文從语义的角度出发对文本之间相似度进行分析,在文本之间语义相似度进行阐述时,对语义工具HowNet进行了介绍,并且梳理了当前流行的基于余弦相似度的文本相似度的处理流程。
参考文献:
[1]马军红.分阶段融合的文本语义相似度计算方法[J].现代图书情报技术,2013(10):20-26.
[2]王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013(12):229-232.
[3]郭丽,刘磊.词汇语义相似度算法研究及应用[J].软件导刊,2013(07):57-58.
作者简介:郐媛媛(1983.10-),女,辽宁沈阳人,图书馆中级职称,主要研究方向:图书馆管理。
作者单位:辽宁行政学院,沈阳 110161