基于WordNet本体库的文本分类方法

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:gege1232000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对用于文本表示的向量空间维数过大、包含语义信息不足及向量空间中词形统计的局限性,阐述了引入概念的优势。通过介绍语义词典WordNet的结构、概念间的多种关系、概念链的定义和应用,将WordNet本体库中的每个同义词集合(synset)看作是能明确表示语义的一个概念,文本中的词条均用与该词条对应的概念来代替,即用该词条所属的同义词集合来代替,通过WordNet中的上下文关系,利用WordNet中的概念链,并引入概念的概括度和反类别频度,调整特征向量空间的权值,建立了文本的概念向量空间模型作为文本的特征向量空间模型,从而体现了文本中更抽象的语义信息。在本文中,提出了一种基于语义分析的文本分类方法,将文本分类技术和语义词典WordNet提供的知识相结合研究实现了一个文本分类系统,分类器采用朴素贝叶斯分类器。对基于语义的向量空间模型的生成步骤做了详细的论述,对基于语义的和基于词形的两种分类系统的性能做了比较实验。实验结果表明,这种概念向量空间模型取得了较好的准确率、召回率和F1值,从而验证了本文基于语义的向量空间模型的可行性和有效性。
其他文献
随着科技的快速发展,各行各业涌现出大量的数据信息。如何从这些数据中快速获取有用的知识、提取有效的分类方法是目前机器学习面临的主要问题。粗糙集理论方法是一种能有效
P2P网络传输是当今互联网中最主要的应用之一,它的流行使得互联网上资源的共享变得十分便捷,同时也使得传播控制和信息监管变得十分困难。P2P技术无中心节点的特点,使管理者
随着网络信息的海量增长,从海量文本中提取摘要成为自然语言处理研究的热点课题。半个多世纪以来,学者从不同角度出发,提出不同的解决方法,并举出适当的范例。本文主要研究的是基
近年来,计算机网络通信技术的飞速发展,为数字信息化的传播带来机遇,同时为数字信息化的保护带来了新的挑战。数字水印技术因其在多媒体版权保护、媒体认证技术方面所具有的
无线传感器网络的研究主要涉及覆盖控制、拓扑控制、网络路由、节点定位、时间同步、能耗优化等问题。其中,覆盖控制既与网络监测质量直接相关,又深刻影响着后续各类协议和算
随着网络的发展,Web Services的种类也越来越多,服务的请求者在面对种类繁多的Web Services同时,急需要一种能够辨别其可信的方法。但是现在的Web Services并没有为自身提供
企业知识管理的主要工作是对企业内领域知识进行表达、存储以及共享。在目前企业知识管理系统中,主要通过关键字匹配的方法来实现知识检索。关键字搜索方法不能充分的理解用户
计算机网络中存储的巨量有价值的资源信息让来自世界各地的不法分子虎视眈眈,他们一直致力于开发各种黑客技术或获取或破坏这些宝贵的资源信息,其中常用的就是木马技术,信息
随着信息和网络通信技术的发展,大量的消费电子产品、移动手持设备和个人电脑进入消费者家庭内部。但是这些设备彼此孤立,不能实现媒体的传输和共亨,造成了“三大信息孤岛”
视频序列中的运动目标检测与跟踪是计算机视觉领域的一个主要研究方向,在视觉导航、智能监控、人机交互、医疗诊断和安全监控等众多领域中有着广阔的研究和应用前景。目前静