基于领域词语本体的短文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ljvael
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本分类问题是短文本应用领域中亟待解决的问题,也是具有挑战性的关键问题之一,具有重要的应用前景。由于短文本自身长度较短的特点,其描述概念能力弱,缺乏一定的语义关系,因而文本分类中常用的方法对短文本的分类缺乏一定的适用性。   针对上述问题并结合现有研究成果,本文引入外部资源中的额外信息来增加短文本间的语义关系,提出了利用领域词语本体进行短文本分类的原理模型,从而实现短文本的分类。   该模型主要包括以下几个部分:首先,在短文本中抽取领域高频词并将其作为初始特征词;其次,借助知网相关知识将特征词扩展为概念和义元,将获取的领域词语本体作为分类的特征词库。该方法较多的考虑了词与词之间的语义关系,因而能够在一定程度上弥补短文本信息量少的缺陷,并且构建的领域词语本体框架,能够更深层次的考虑和扩展语义关系,有利于复用和更新;再次,在分类过程中,提出了一种基于本体语义相关度比较的分类算法进行短文本分类,该方法更有效地利用了更多的语义信息进行分类,克服了传统分类器依据词的概率进行单纯的词的匹配而缺乏语义的缺陷;最后,通过对大量的短文本进行实验,结果表明,本文方法在短文本分类的准确率和召回率方面有一定的提高,具有一定的可行性。
其他文献
带硬约束的MAX—SAT问题又称为Partial MAX—SAT问题,它是SAT问题和MAX—SAT问题的结合,比后两者有着更强的描述问题的能力和更广泛的应用背景。人工智能、电路设计、生物信息
随着数字图像技术的发展,数字图像处理在岩体工程中得到了广泛的应用。在岩体工程中,岩石节理裂隙的几何特征是一个非常重要的性质。提取岩石图像中的各种节理裂隙,了解节理裂隙
学位
近年来,以Internet为代表的信息网络给人们的生活带来了巨大的变化。通过Internet上网已经成为人们生活中不可缺少的一部分,而且现在人们还要求在移动中获得Internet服务。为此
学位
随着互联网和多媒体技术的迅速发展,人们可以访问到的视频数据急剧增长,如何从这些海量的数据中寻找感兴趣的内容成为一个非常重要的研究课题。通常,人们利用特征提取算法从多媒
学位
多方保密计算是近几年国际密码学界的一个研究热点。它的应用范围很广,比如数据挖掘、科学计算、数据库利用等等,已成为密码学领域里一个极端重要的工具,计算领域里一个必不
随着传统身份认证技术出现的漏洞和不足,身份安全问题地解决迫在眉睫。因此人们开始对生物特征认证技术进行研究,作为最可靠的生物特征认证技术之一的虹膜识别,因其唯一性、稳定
学位
20世纪90年代后期出现了一种新兴编程技术--面向Aspect编程(Aspect-Oriented Programming,AOP),成为软件工程领域研究热点之一。随着AOP技术的日趋完善,迫切需要一种贯穿需求
学位
在当今计算机和Internet产业的发展中,嵌入式系统成为一个重要的发展领域,而嵌入式实时操作系统(RTOS)在嵌入式系统软件体系中起着越来越重要的作用。μC/OS-Ⅱ是一个公开源
学位
排序是信息检索的核心问题,因为一个搜索系统的好坏主要由它的排序结果的正确率来评价。信息检索中提出了许多排序模型。直到最近,被称为“排序学习”的机器学习技术被深入应用
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎将面临信息采集、检索等方面更大的挑战。随着电子商务的蓬勃发展,网上商品的交易越来越频繁,更多的消费者通过搜索引
学位