粗糙集在文本分类系统中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zhhs555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和通讯技术的飞速发展,人们可以获得的文本信息越来越多,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本信息的关键技术,可以给信息文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。且作为信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。粗糙集理论是波兰数学家1982提出的一种分析模糊和不确定知识的强有力的数学工具,作为人工智能领域的一个新的研究热点,能有效分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论无需提供除问题所需处理的数据集合之外的任何先验信息;包括了知识的一种模型,使知识可用数学方法来分析处理;能获取分类所需的最小属性集,在不影响分类精度的条件下降低特征向量的维数,得到最简的显示表达的分类规则。而其它如朴素贝叶斯方法、K近邻方法都无法得到显示规则。本论文主要对基于粗糙集理论的文本分类系统进行了系统的研究。具体的研究内容和创新性研究主要概括如下:(1)详细介绍了粗糙集及其相关理论方法和文本分类的基本内容,分析了粗糙集和文本分类的研究背景及其研究现状,并对其技术的热点、研究领域及未来发展进行了探讨,为该论文的下一步展开奠定了基础。(2)通过研究现有属性约简算法的优缺点,在一般粗糙集的相对约简算法结合Tabu算法的基础上,提出了一种改进的属性约简算法。该算法以属性重要度为启发式信息,能得到一个最小约简。(3)针对分词难的问题,为屏蔽对文本分词,在单篇文献中,提出了一种基于属性重要度的文本表示方法,并给出了一种获取关键词的算法。同时这种算法克服了张雪英提出的基于GF/GL权重计算对特殊文献中同一字符串出现频率是1的难题。(4)在深入研究了文本分类和粗糙集的基础上,提出了一种基于粗糙集的文本分类系统模型,主要包括四大模块:文本预处理模块、属性约简模块、规则获取模块及其规则匹配模块。主要在属性约简模块和规则匹配模块上进行了深入的研究,最后利用仿真实验,基于粗糙集的文本分类系统是可行的。论文中存在的不足:一方面是是语料库和停用词表的限制,另一方面基于知识粒的概念和计算正处于研究阶段,没有形成统一的概念体系。通过把知识粒的大小来衡量属性重要度作为一种启发式信息用于属性约简和文本表示还很少,其中对软计算公式研究还不大透彻。自动文本分类及粗糙集理论还有很多细节问题值得去探讨,本论文提出的部分算法经仿真实验验证,本系统是可行的,但仍还有待于进一步研究。
其他文献
本文依据现代教育科学基础理论,采用面向对象的软件开发方法,利用计算机和网络技术,设计并实现了一个试题库、自动组卷、网上考试和形成性教学评价集成系统。文章首先描述了系统
本文在分析了织物染色配色的意义和方法后,阐述了径向基函数神经网络和模糊推理系统的一般理论,并研究了基于径向基函数神经网络和模糊神经网络的两种织物染色计算机配色方法。
随着我国通信事业的迅速发展和基础通信设施的建设,电信网的规模迅速扩大,同时国内电信市场的竞争也日益激烈。传统方式下的运行维护工作在进行省内、省际的故障协调和维护工
IPv6作为下一代互联网的协议,在安全性、可扩展性、业务质量方面都比目前使用的IPv4有所改进。鉴于IPv6的迅猛发展和技术上的巨大优势,基于IPv6的网络管理技术也显得日趋重要
本文研究的机器人视觉系统主要应用于国内烟草物流企业卷烟辅材配盘系统,也是国内烟草物流企业第一次真正意义上使用带有视觉功能的机器人配盘系统,无论从理论还是实践方面都具
学位
近年来,随着移动通信用户各类非话音业务的迅速增加,人们的视线已由现在的话音通信业务转向多媒体业务,对高速数据通信的要求越来越迫切。有效地利用有限的频率资源是目前急需解
随着经济全球化,越来越多的企业开始重视供应商,考虑构建一个供应商评价系统来实现供应商的选择并加强与供应商的交流合作。但是,目前缺乏有效的适合构建系统的供应商评价方
随着互联网技术的发展,软件规模不断变大,复杂度随着规模的扩大呈指数级上升。软件开发成本和进度更加难以控制,软件质量越来越不可靠,软件危机也随之而来。为了解决这一危机
近些年来,认知无线网络动态频谱分配技术是无线通信领域研究的重点之一。本文在对认知无线网络及其动态频谱分配技术进行详细阐述的基础上,采用博弈相关理论,提出了动态频谱分配