基于融合共现距离的句法网络下文本语义相似度计算

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:ah20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]综合语义、句法和词频等多种文本信息特征,突破现有文本相似度计算的局限.[方法]构建融合共现距离和依存句法的文本复杂网络,运用信息熵确定网络动力学特征指标的权重.利用词嵌入、句法结构和倒排档信息避免词语结构和语义的缺失.[结果]对比实验结果表明,不同类别下本文算法分类效果的F1值较句法网络+TF-IDF方法最高提高12.1%,比共现网络+语义方法最高提高5.8%.本文算法的各类别分类效果的平均^值较二者分别提高5.8%和1.6%.[局限]特征提取中对各指标的选取有待改进,以更全面地区分节点间的重要性.[结论]与传统方法相比,本文算法减少了文本信息流失并实现文本降维,有效地提高了文本相似度计算的准确率.
其他文献
本论文回顾了国内外铁路货车缓冲器的发展历程,针对现阶段我国铁路货车缓冲器存在的问题,尤其是作为我国铁路货车缓冲器的主型产品ST、MT-3型缓冲器存在的阻抗力大、ST型缓冲器
随着全球经济一体化的加快和信息网络技术的迅猛发展,世界进入了一个全新的时代,人类的信息管理活动随之进入了知识管理时代。知识管理是以当代信息技术为依托,以知识的获取、共
本文从摩擦学角度入手,选取了LuGre动态摩擦模型对stick-slip粘滑驱动原理进行了分析:将stick-slip驱动过程划分为4个阶段,并求得每个阶段的动力学方程;在此基础上绘制了系统
2019年10月12日中国人民银行发布“《标准化债权类资产认定规则(征求意见稿)》”,严格的划分了标准化债权资产和非标资产的区别,这一方面高于市场预期,反映了监管层严格把控
本文根据哈尔滨汽轮机厂的“车间生产管理信息系统”项目,主要对离散型制造类企业车间级生产计划与调度管理进行了以下几个方面的研究:研究了单件小批生产方式下车间生产管
本文以现代设计理论为依据,利用有限元分析软件ANSYS对系统进行了结构有限元分析、结构优化设计。为近距离捕获地面实验系统进一步设计和实施奠定了基础。首先,对系统中的
本文综述了国内外电火花数控系统的研究趋势,和国内外对电火花高速小孔加工工艺的研究成果.高速电火花小孔加工是一种重要的电火花深孔加工方法.这种加工工艺利用中空的管状
汽车车身曲面重建技术是当今国内外汽车行业研究的一个热点问题。随着三维激光扫描仪等先进设备的出现,我们可以更加容易的获取具有丰富几何细节的三角网格表示的数字模型。现
社会的发展和时代的变化,使得人们越来越重视国民身体素质的发展。体育教学作为大学教育的一个重要组成部分,对于增强学生健康生活意识和强壮学生体魄具有重要意义。本文主要是
本文首先查阅了大量的相关文献和资料,研究了固液混合体的流场状况,系统分析了搅拌器、旋流器、高剪切头的结构与原理,改进和优化设计了新型一体化混粉装置,并系统地分析了混