中文文本分类反馈学习研究

被引量 : 0次 | 上传用户:opss_eagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet信息的日益膨胀,网络上的信息资源正在以指数级的速度增长,人们必须面对如何在广博的信息中发现和挖掘自己所需信息资源的问题。这就要求我们探索计算机自动文本分类的有效方法,使得分类的效率和准确率得到提高。然而由于训练语料数量有限而难以覆盖该类别所有的内容和随着时间的推移该类别又增加了许多新特征而使原有分类器过时,此时仍利用原有分类器来对当前待分类文本进行分类,可能会造成分类错误和分类遗漏等问题。反馈学习是针对信息变化动态调整完善分类模型行之有效的方法。因此,根据用户反馈对分类模型进行动态完善成为当前亟待解决的问题。本文在文本分类现状进行广泛研究地基础上,对文本分类的关键技术进行了归纳性总结,其中包括文本分词、文本表示、特征选取、特征权重计算、分类算法(特别是支持向量机分类器和K最邻近分类器)和分类性能评估。基于不同规模的文本集,比较性分析了信息增益、互信息、期望交叉熵、x~2-统计量和文本证据权五种特征选取方法对分类性能的影响;实验分析了文本特征选取算法对分类性能的影响、支持向量机分类器中核函数选择对分类性能的影响、特征向量维数对文本分类性能的影响和K最邻近分类器中K值的大小对分类性能的影响等。在对中文文本分类深入研究的基础上,又将相关反馈引入中文文本分类并详细分析了文本分类反馈学习的基本思想,对反馈学习的分类流程和反馈学习算法进行了深入探讨,构建了基于反馈学习的中文文本分类模型,阐述了中文文本分类反馈学习系统的结构框架和功能模块。最后,通过对训练集和非训练集分别进行的实验研究表明:反馈学习对分类性能的提高有明显的作用和用于学习的训练样本的质量对分类性能影响的重要性和用户参与反馈分类所带来的不确定性。“训练—分类—反馈”的中文文本分类反馈学习模式,是在传统“训练—分类”模式基础上增加反馈而形成的,那么该分类模式对训练不充分或由于更新较快而无法训练充分的分类模型具有完善作用,分类器也逐渐从训练不充分阶段趋于训练充分阶段,分类性能也将逐渐趋于稳定。因此,对中文文本分类反馈学习的研究具有较强理论意义和实践意义。
其他文献
黑人女作家托尼.莫里森以其特有的艺术风格揭示了美国黑人特别是黑人女性的生存困境。她的小说在美而不丑、哀而不伤的氛围中,通过不同的叙事技巧和不俗的审美掌控来展现或新
"软实力"这一概念诞生于特定的世界地缘政治和美国国内政治语境,其魅力有赖"硬实力"的支撑,其内涵包含美国霸权的现实存在。因此,以"软实力"来主导中国的主流话语并不妥,而文
传统的数据挖掘任务通常假定数据由同种类型、相互独立的实体构成,但现实世界的许多数据却是多关系的。多关系数据在生物信息学、Web导航、社会网、知识获取与利用、地理信息
中国和泰国同属发展中国家,且都深受儒家文化影响,因此,在文化方面中国与泰国既有共通之处又有差异之处。深入分析中泰戒烟公益广告在文化背景、价值观念、思维方式等方面的
从唐代蒸青与秘色瓷的结合,到宋代斗茶文化与建盏的结合,茶文化的发生与发展从来离不开茶器的衬托。手工茶器的珍贵之处也正是由于茶器与茶相互衬托,更使茶具具有欣赏价值和
<正> 中国人民保卫世界和平委员会、中国美术家协会,为加强中智两国人民的友谊和开展两国文化交流活动,将于十月下旬在北京美术家协会展览馆举办智利名画家及和平战士何塞·
期刊
一、为获得猪干扰素α(Porcine interferon alpha,PoINF-α)和干扰素γ(Porcine interferon gamma,PoINF-γ)基因,本研究参照Genebank已发表的猪干扰素α和干扰素γ基因序列,
铣刨机作为机械化修复路面重要设备,日益受到关注和重视。铣刨轮是铣刨机关键部件之一,其设计的质量,严重影响铣刨机的工作性能。本文对沥青路面铣刨机铣刨轮的设计进行了研
公司设立无效是指对已成立的公司在其设立过程中有不符合公司法规定的根本性条件的情形,通过诉讼予以处理的措施和制度。具体来说是指公司从形式上已经成立、公司设立不符合
<正> 郭熙在中国山水画发展史上起过很大的作用,是一位有代表性的画家,也可以说代表了当时山水画的高峰。他的《林泉高致》一书系统地阐述了山水画创作的理论问题,作出了重要