基于词典约简及多分类算法的文本分类系统的设计与开发

来源 :情报学报 | 被引量 : 0次 | 上传用户:yujia599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一。本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施。具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等。通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性。本文详细讨论了相关改进措施的原理、实现算法、流程及
其他文献
目的探讨对低体质量的新生儿试探性采取早期全静脉营养支持治疗的疗效。方法选取2013年3月~2014月3月间我院新生儿科收治的150例低体质量新生儿作为研究对象,随机分为观察组(n
调度端自动电压控制AVC作为调节系统内电压和无功的主要手段,在实际运行中存在许多问题,其中包括电容器的不正确投切、闭锁,以及无功倒送等。通过对现场电压无功控制的应用情况
在分析组织知识结构及存储情况的基础上,提出了一种基于加权超网络模型的组织知识搜索及定位方法。首先建立组织知识的加权超网络模型,该模型将组织知识及其存储载体集成为一个
本文深入探讨了SA8000的产生背景、思想本质及其科学性和局限性,通过与我国科学发展观的比较分析,澄清了目前我国对SA8000的误解和偏见.同时进一步指出,科学的发展观要求我国
由ISO、IEC和ITU三大组织建立的世界标准合作组织(World Standards Cooperation,简写为WSC)共同致力于制定一系列协调一致的国际标准,旨在支持全球商业而又不给贸易造成任何
网站用户的信息行为由其心智模型决定,在心智模型的测量中,个体感知的概念之间关系的"关联性"、"空间性"是主要测量角度,其中"空间性"可以揭示个体评价不同概念的潜在心理标准,也就