基于粗糙集的中文文本分类算法研究及应用

来源 :江苏大学 | 被引量 : 10次 | 上传用户:king269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,网络上的信息量急剧增加。如何对这些在线文档进行有效的组织和高效的管理,成为人们迫切需要解决的问题。文本分类也成为解决该问题的一项关键技术。文本分类是文本挖掘的一个重要分支,因其独特的知识发现功能而得到较为深入的研究。文本分类技术已经在信息过滤、检索技术、数字图书馆服务等领域得到了广泛的应用,具有广泛的应用前景。粗糙集理论能处理模糊和不确定性知识,它不要任何先验信息,就可以有效的分析和处理不完备、不一致、不精确的数据,使知识可以用数学的方法来分析处理,并从中发现隐含的知识,揭示潜在的规律。其主要思想是在不影响分类精度的前提下降低特征向量的维数,得到最简的分类规则。本文主要对基于粗糙集理论的文本自动分类算法进行了系统的研究,以及将该算法应用在公安情报分类系统中。具体的研究内容概括如下:(1)介绍文本分类的相关技术,并对一些常用文本分类算法进行了详细的分析和比较。(2)针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足。提出了一种结合信息熵的TFIDF文本特征权重计算的改进方法。该方法采用特征项在类间和类内信息分布熵来调整TFIDF方法,从而使特征项的权重更加合理。(3)针对传统基于频率阈值过滤的特征选择方法会导致有效信息丢失,影响分类精度的不足,提出了一种新的基于粗糙集理论的属性约简文本自动分类算法。该方法首先对加权后的特征属性进行离散化,建立一个决策表;然后根据基于依赖度的属性重要度对决策表中条件属性进行适当的筛选;最后采用基于条件信息熵的启发式算法实现文本属性特征的约简。(4)将文中提出的基于信息熵改进的TFIDF特征权重计算方法和基于粗糙集理论文本分类算法应用到具体的公安情报分类子系统中。实际应用表明该系统能提高了情报处理的效率和正确性。
其他文献
在企业经营管理实践中,如何提高员工的工作满意度是企业激励员工、进行有效的人力资源管理、保证企业长远发展的关键问题。针对这一问题,本文在回顾和分析现有关于工作满意度
2007年10月中共十七大报告首次明确提出建设生态文明,这是新时期顺应时代发展潮流的的重大战略举措,也是建设社会主义和谐社会的一项重要内容。同时,建设生态文明,科学合理地
随着生物学科的快速发展以及与国民经济、日常的生产生活的关系日趋密切,提高生物领域从业人员的综合素质的重要性也日渐显现。素质的提高体现在基础教育新课程改革中,首先是
本文将媒体引导人们的认知置于媒体营造的"拟态环境"中。本文运用互联网数据挖掘系统和"中国网络社会心态调查(2014)"的数据,分析了普遍不确定性条件下转基因话题的网络媒体
在日益严格的环保要求下,离心泵中的噪声问题受到越来越多的关注。在离心泵中,噪声包含两部分,一部分是由机械振动产生的机械噪声,另一部分是由流场产生的流动噪声。虽然有多
目的评价门诊护理过程中风险管理措施实施效果。方法 2009年10月北京军区总医院第一门诊部开始在门诊护理过程中实施风险管理,总结和评估门诊护理中可能存在的危险因素,通过
2002年8月教育部颁发《全国普通高等学校体育课程教学指导纲要》,明确提出“因地制宜开发利用各种课程资源是课程建设的重要途径”。重庆市渝东南地区作为重庆市少数民族聚居
村民自治在我国已实行了将近30年,在这一时期里,中国的乡村社会在经济、政治、组织结构以及人们的生活方式上,都发生了明显且深刻的变革。“包干到户”的经济体制促成村民的
目的了解云南省腾冲县跨境婚姻人群人口学特征、艾滋病知晓情况、艾滋病感染现况、缅籍媳妇跨境前后社会网络状况以及中国籍丈夫跨境前后社会网络状况,分析该人群艾滋病脆弱
课堂情绪管理既是课堂教学活动的重要组成部分,又是实现个体自我和谐和个体与他人之间的人际和谐的手段与途径。基于同伴调节的课堂情绪管理为克服传统课堂情绪管理中以“教