主客观结合的语义相似度算法及其应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:sunashelly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机在个人用户的大量普及和互联网技术的飞速发展,网络用户和网站数量呈现出爆炸式的增长方式,于是网络上的信息也以海量方式增长如何从网络上的海量信息中准确的提取出所需要的信息是如今的信息处理技术所面临的一个巨大挑战,传统的基于字符串匹配的信息检索方式已经不能满足信息处理的需求,基于语义的信息处理方式应运而生词语语义相似度计算是自然语言处理智能检索文本聚类等领域的一个基本问题词语语义相似度计算主要有两种方式:根据语言学家规定的知识结构的计算方式,比如语义词典或语义网络,即主观方式和根据客观个体形成大规模语料库的计算方式,即客观的计算方式主观的语义相似度计算方式主要是根据语言学家对于词语的定义信息进行分析,然后根据这些信息的特点进行相似度计算客观的语义相似度计算方式主要根据词语所处的语料库所提供的语境运用统计方式进行相似度计算本文通过研究基于ǎ知网ǐ的词语语义主观相似度算法和基于大规模语料库的词语语义客观相似度算法,提出一种改进的主客观相结合词语语义相似度算法,在计算过程中排除某些干扰因素使得词语相似度计算结果在符合人主观概念和客观语境方面都得到了较好的改善文本是计算机与互联网世界重要的信息载体之一,文本相似度计算是文本分类与文本聚类等文本信息处理方式的基础本文对文本相似度算法进行研究提出一种双层次的文本相似度算法本文将文本信息分为两个层次的信息:题目信息与文本内容信息,分别求得两部分信息的相似度,最后相结合得到最终的文本相似度在计算题目信息相似度与文本内容信息相似度时利用上文提到的改进的主客观结合的词语语义相似度算法,使得得到的文本的相似度既可以较为符合主观概念也能够符合客观语境对于以上的研究的内容进行了实验平台的搭建,得出实验结果并进行分析和对比,得出本文所提出的方法在词语与文本的语义相似度计算方面得到了一定的改善
其他文献
无线网络链路可用带宽测量对保证无线网络的通信质量具有非常重要的意义,精确的链路可用带宽估计能使有限的带宽资源被充分利用,错误的估计会造成节点之间通信质量差甚至无法
无线传感网是由部署在监测区域的传感器节点自组织构成的网络,正确可靠的网络协议是该网络自组织高效运行的基础。在无线传感网自组织协议验证手段中,模型检验是一种形式化自动
图像分割是把图像划分成各具特性的子区域并提取出感兴趣目标的技术和过程,它是对图像进行进一步处理和分析的基础。在已提出的图像分割方法中,很多方法都具有较好的分割效果,但
无线传感器网络(Wireless Sensor Network, WSN)融合多领域前沿科技于一体,有寻常网络难以企及之优势,其未来发展不可限量。迄今为止,WSN在深海探测、航空航天、救灾抗震等领域已
随着电子产业的发展、硬件成本下降以及图像视频处理各种算法不断推陈出新,视频处理技术在工业、商业以及民用方面已经达到实用的阶段。在视频处理技术快速发展的环境下,虚拟广
遥感技术已经逐渐成为我们生活中不可缺少的一部分,它的发展让我们的信息来源更加的广泛,给各个领域的发展开辟了新的发展空间。但由于在拍摄的过程中受到种种原因的影响(如热噪
大众标注(Folksonomy)的概念随着Web2.0技术的发展出现,它重视用户参与,通过邀请用户参与标注过程,可以达到知识共享和用户交互的目的,能挖掘用户标注中潜在的偏好。凭借自发性和
合成孔径雷达(Synthetic Aperture Radar,SAR)是遥感技术的一个重要研究方向,在军民两方面都有重要应用价值。SAR图像的成像原理与光学图像不同,研究SAR图像去噪方法有重要意义
由于计算机及网络的飞速发展,因特网上的信息量呈指数级增长。当使用通用搜索引擎来搜索相关的信息时,准确率越来越令人难以接受,有时候甚至访问了几十个页面都无法找到所需的内
近年来,网络攻击的巨大威胁和安全问题已经受到了不同组织的高度关注。入侵检测系统作为一个保护数据完整性和系统可用性的反制手段,起着越来越重要的作用。目前,许多研究人员将