基于多分类器的新闻分类系统的设计与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:icefireren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,特别是移动互联网的不断繁荣,人们之间的社交通过虚拟社交软件得到进一步的深入。自媒体不断流行,在社交场景下更是得到进一步的加强,再加之网红经济的到来,网络上的信息来源越来越多,而且更加按照社群或者兴趣进行信息聚合。这些图文信息在社交网路的传播效率显得更加实时。新闻多源和新闻快速产生的情况下,新闻生产已经不再是最主要的问题,而是就互联网高效的新闻分布能力和途径,如何有效的从不同新闻源进行新闻的收集和分类将成为新闻媒体最大的挑战。本文正是在这种背景下提出了新闻分类系统,通过新闻分类系统加快新闻的发布,降低用户信息的处理量。本文主要研究内容如下:首先对新闻分类系统的国内外发展现状展开了详细的研究和分析,为本文系统架构和技术选型指明了方向。在此基础上对新闻分类系统涉及到的相关技术进行了深入的研究。其次对系统展开了详细的需求分析和设计,对系统的总体展开了设计,主要包括系统的系统框架和系统的功能模块组成。然后对系统的四大模块:文本预处理模块、中文自动分词模块、特征值提取模块和多分类器分类模块展开了详细的设计。最后对系统进行了详细的实现和测试,对新闻分类系统的四大模块展开了实现。文本预处理模块主要处理的文本为Web文本,本文采用了Jsoup进行实现,通过Jsoup工具对Web文本进行标签过滤,提取新闻的主题和内容。中文分词则采用了Jcseg分词器。特征值提取则采用了互信息和X2统计方法进行结合,对特征值向量进行降维并获取最佳的特征值向量。多分类器分类模块最终计算的NBayes先验概率存储在Mysql中。
其他文献
本文通过室内对中壤土及轻壤土饱和、非饱和水动力弥散实验,认为对实验土样不动水体是存在的,在描述弥散过程的数学模型中应考虑不动水体的作用。根据一维饱和弥散实验结果,
黄铁矿在常规焙烧方式下热分解机理属于未反应缩合模型,利用实验室微波发生设备,在微波辐射下,对粒度为-0.074mm的黄铁矿进行温度分别为600℃、650℃、700℃的恒温焙烧试验,
语文教师知识的基本框架是一般知识、学科知识、课程知识、教育理论知识、教学法知识和实践性知识,以问卷调查的形式请中学语文教师对不同类专业知识在中学语文教学中的重要
早在两千多年前,孔子就已经充分意识到言语的功用与价值,虽然《论语》中并没有形成系统性的语言学观点,但书中却有相当多的篇幅论及"言语"问题。经由对《论语》的系统研究,我
18世纪初期中国的人丁数量和人口数量究竟有多少?这在学术界歧异较大。本文首先对该时期人丁的统计方式作了考察,并校正了一些与实际不相符合的人丁数字,进而对丁与户的关系以及户
时代在发展,女性领导群体也在逐渐壮大。文章分析了当代女性领导者所具有的领导特质及其领导力提高的障碍,并对女性领导力提高的途径作了探讨,提出了自己的建议。
本文从家务分配的公平性、权力模式的平等性和自我感受的趋同性等方面阐述了中国城乡夫妻伙伴关系的现状、差异及其社会历史原因。国际比较研究的结果表明,中国城市夫妻的伙伴