基于核心词扩展的文本分类

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kantstop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,特别是Internet应用的普及,电子化文本数量迅速增长。为了快速的处理和查询所需要的文本信息,要求能够有效地组织文本。文本分类技术常被用于大量文本数据或超文本数据的组织,然而传统的文本分类技术已经难以满足当今分类任务高维度、大数量以及高可读性的要求。新近提出的一些基于关联规则的文本分类算法普遍采用这样的策略:文档中的单词被看作是项目(items);每一篇文档被看作是一个事务(transaction),即项目的集合,在此基础上进行频繁项集的挖掘。然而,在一篇文档中,能够表达一个完整语义的最小单位是句子,属于同一句子的单词集合往往比属于不同句子的单词集合语义联系要丰富得多。基于以上考虑,提出一种基于句子级频繁项目集的文本分类算法。研究了使用句子级别的最大/闭合关联规则来表示文档,并且根据从文档中挖掘出的最大/闭合关联规则来构造类的分类器以及使用分类器进行分类。此外,与传统的基于文档覆盖的修剪方式不同,它使用一种简单适中的方法进行剪枝,提高了修剪分类规则的速度。通过在新闻数据集Reuters和电子邮件数据Enron上的实验证明,这可以取得与其它几个著名算法媲美的分类效果,并且远远超过了目前文档级的关联规则分类算法。
其他文献
虽然机器翻译已经有了50年左右的历史,但目前它的研究仍然没有取得实质性的突破。机器翻译的方法主要包括基于规则、基于例子和基于统计的三种方法,但它们都有各自的局限性,而基
近年来,基于模糊模型的不确定系统的模糊控制是智能控制领域的研究热点之一。本文就此领域的相关问题展开系列研究。首先,针对一类由T-S模糊模型表示的不确定非线性系统,采用
实时仿真支撑软件是开发实时仿真程序的专用软件工具,而实时仿真程序是仿真机的核心软件。实时仿真支撑软件可运行于多种型号的计算机硬件环境和多用户、开放型操作系统,以扩
本文针对目前计算机使用最多的JPEG格式图像,在保证一定的检索精度的前提下,对如何提高检索速度、降低存储复杂度以及计算量,进行了相应的研究。具体内容如下: 第一章首先介
无线信道环境下TCP/IP、ARP、ICMP等基本协议栈及其相关应用的设计与实现。本课题目标是实现PC机之间通过低速率无线电台的通信应用,最终目标是完全移植到无线电台环境下运行T
近年来,混沌控制与同步的研究引起人们极大的兴趣,并成为当前混沌研究的一个热点。混沌控制与同步的发展不仅为非线性动力学与控制领域的旧问题提供圆满的解答;也带来了新的
随着互联网的发展,社会化媒体逐渐成为人们获取信息与发布信息的主要方式。截止2016年底,全世界的互联网用户数目达到了35亿,而作为社会化媒体代表之一的 Facebook月活跃用户数
本文在前人研究的基础上,结合传统的密码学和新兴的数字水印技术,提出一种基于密码学的数字水印技术。主要研究工作如下: 1.针对Logistic混沌映射在现实应用中由于计算机有限
动画自动生成技术(AutomaticGenerationofComputerAnimation)由中科院数学所的陆汝钤院士提出,它是人工智能技术与电影艺术,图形学技术的结合,是以底层图形学技术为支撑,在上层运
进入21世纪以来,软件测试在软件工程中的比例、复杂度、成本越来越高,软件测试研究成为软件界共同瞩目的焦点。对软件测试辅助的研究始终围绕着质量、成本、时间三大要素进行