论文部分内容阅读
随着互联网的不断发展,特别是移动互联网的不断繁荣,人们之间的社交通过虚拟社交软件得到进一步的深入。自媒体不断流行,在社交场景下更是得到进一步的加强,再加之网红经济的到来,网络上的信息来源越来越多,而且更加按照社群或者兴趣进行信息聚合。这些图文信息在社交网路的传播效率显得更加实时。新闻多源和新闻快速产生的情况下,新闻生产已经不再是最主要的问题,而是就互联网高效的新闻分布能力和途径,如何有效的从不同新闻源进行新闻的收集和分类将成为新闻媒体最大的挑战。本文正是在这种背景下提出了新闻分类系统,通过新闻分类系统加快新闻的发布,降低用户信息的处理量。本文主要研究内容如下:首先对新闻分类系统的国内外发展现状展开了详细的研究和分析,为本文系统架构和技术选型指明了方向。在此基础上对新闻分类系统涉及到的相关技术进行了深入的研究。其次对系统展开了详细的需求分析和设计,对系统的总体展开了设计,主要包括系统的系统框架和系统的功能模块组成。然后对系统的四大模块:文本预处理模块、中文自动分词模块、特征值提取模块和多分类器分类模块展开了详细的设计。最后对系统进行了详细的实现和测试,对新闻分类系统的四大模块展开了实现。文本预处理模块主要处理的文本为Web文本,本文采用了Jsoup进行实现,通过Jsoup工具对Web文本进行标签过滤,提取新闻的主题和内容。中文分词则采用了Jcseg分词器。特征值提取则采用了互信息和X2统计方法进行结合,对特征值向量进行降维并获取最佳的特征值向量。多分类器分类模块最终计算的NBayes先验概率存储在Mysql中。