基于词典约简及多分类算法的文本分类系统的设计与开发

来源 :情报学报 | 被引量 : 0次 | 上传用户：yujia599

【摘要】

：

文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一。本文在对自动分类的实现技术问题进行探讨的基础上，尝试对自动分类的几个环节提出改进措施。具

【作者】

：

白振田侯汉清

【机构】

：

南京农业大学信息科技学院

【出处】

：

情报学报

【发表日期】

：

2008年3期

【关键词】

：

抽词词典自动分类向量空间模型层次分类粗糙集 word-extracting dictionary text categorization VSM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一。本文在对自动分类的实现技术问题进行探讨的基础上，尝试对自动分类的几个环节提出改进措施。具体包括：采用约简法进行抽词词典的构造，采用投票法进行文本特征的选择，采用层次法进行逐层次的分类，采用统计与规则相结合的方法进行分类器的构造等。通过在不同语料库上与传统分类方法的对比测试表明，上述改进措施能够有效提高自动分类的性能，基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性。本文详细讨论了相关改进措施的原理、实现算法、流程及

其他文献

早期全静脉营养对低体质量新生儿营养状态及生化指标的影响

目的探讨对低体质量的新生儿试探性采取早期全静脉营养支持治疗的疗效。方法选取2013年3月~2014月3月间我院新生儿科收治的150例低体质量新生儿作为研究对象,随机分为观察组（n

期刊

全静脉营养低体质量新生儿营养状况生化指标Total parenteral nutritionLow weight newbornNutritional

提高AVC系统对现场电压无功控制能力的研究

调度端自动电压控制AVC作为调节系统内电压和无功的主要手段，在实际运行中存在许多问题，其中包括电容器的不正确投切、闭锁，以及无功倒送等。通过对现场电压无功控制的应用情况

期刊

AVCVQC调度端电网损耗AVC VQC Dispatching Side Grid Loss

一种基于加权超网络模型的组织知识搜索定位方法

在分析组织知识结构及存储情况的基础上，提出了一种基于加权超网络模型的组织知识搜索及定位方法。首先建立组织知识的加权超网络模型，该模型将组织知识及其存储载体集成为一个

期刊

知识管理知识搜索知识定位加权超网络组织知识knowledge management knowledge searching knowledge l

SA8000与人本经济

本文深入探讨了SA8000的产生背景、思想本质及其科学性和局限性,通过与我国科学发展观的比较分析,澄清了目前我国对SA8000的误解和偏见.同时进一步指出,科学的发展观要求我国

期刊

SA8000人本经济我国企业社会责任科学发展观科学的发展观比较分析和局产生背景科学性SA8000anthropocentric econo

Torsten Bahke博士在“德-美经济关系：冲突，合作，协调”会议上的讲话（摘要）

由ISO、IEC和ITU三大组织建立的世界标准合作组织(World Standards Cooperation,简写为WSC)共同致力于制定一系列协调一致的国际标准,旨在支持全球商业而又不给贸易造成任何

期刊

TorstenBahke德国美国经济关系冲突合作协调国际标准欧洲标准

基于多维尺度法的网站分类目录理解用户心智模型空间性测量研究：以政府网站为例

网站用户的信息行为由其心智模型决定,在心智模型的测量中,个体感知的概念之间关系的＂关联性＂、＂空间性＂是主要测量角度,其中＂空间性＂可以揭示个体评价不同概念的潜在心理标准,也就

期刊

多维尺度心智模型网站分类目录空间性测量multidimensional scaling mental model website category

基于词典约简及多分类算法的文本分类系统的设计与开发

其他学术论文