基于改进朴素贝叶斯的新闻分类研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:c1s2d3n456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的高速发展和数据挖掘技术的不断更新,文本分类已经成为自然语言处理中最常用的应用场景,其在舆情分析、机器翻译和聊天机器人等领域都有广泛的应用。现阶段文本分类技术有很多,但是朴素贝叶斯分类模型(Naive Bayes Classifier,简称NBC)已经成为最常用的分类模型之一。朴素贝叶斯分类模型在众多领域中均有很好的分类性能,但该分类模型也具有一定的局限性,例如需要满足属性之间相互独立的条件假设,而该条件假设在实际应用中却经常难以满足。基于该条件假设研究者们从扩展结构、特征选择、特征加权和朴素贝叶斯模型与其他模型相结合四个方面做出了推广,并取得了较好的效果。本文在前人的研究基础上,利用主成分分析(Principal Component Analysis,简称PCA)改进了朴素贝叶斯分类模型。基于主成分分析的朴素贝叶斯分类模型,简称PCAWNBC模型。本文利用主成分分析的主成分之间是相互独立性质,有效缓解了朴素贝叶斯相互独立的条件假设;再利用主成分的方差贡献率作为属性的特征权重,消除了同一属性对不同类别具有相同值的(权重均为1)缺陷。通过上述的分析后,本文将PCAWNBC模型应用到新闻文本分类的实例中。采用网络爬虫技术,使用Python从网上抓取十类,每类1200篇,共计12000篇新闻文本作为训练集。以12000篇新闻随机选3000、6000、9000及12000篇为横向,以NBC、PCAWNBC、逻辑回归、K近邻及支持向量机为纵向,从准确率、召回率、1F值和训练时间四个方向评估各分类模型在不同数据集上的分类性能。得到如下结论:在不同数据集上,PCAWNBC模型相比NBC模型的准确率均约提升5%;当数据量增大时,PCAWNBC模型的分类性能比NBC、逻辑回归、K近邻及支持向量机效果会更好。
其他文献
中国的饮食文化中历来注重菜肴与餐具的和谐统一,精美的餐具可使菜肴整体美观,增进顾客食欲,并利于菜肴的创新,促进菜肴销售。中国餐具在材料质地、品种、造型方面,种类繁多,
广东经济增长方式具有明显的粗放型特征,高投入低产出、高污染低循环、高速度低效率等问题突出。近些年来国际国内出现一系列新形势和新情况,广东内部自身的压力和矛盾加大,其他
中药制剂是中药与其临床防治疾病应用的纽带,而制剂原料的研究作为中药剂型设计的基础,是中药发挥临床疗效的保证。组分结构研究是获得未来组分中药制剂原料的关键,其包含着
线性代数是现代数学的重要组成部分,它被广泛地应用于自然科学和社会科学中。随着线性代数研究的不断深入,以线性代数式为线索的数学公式检索需求量不断增加,现有的检索技术
目的探讨案例教学法提升护生护理安全知识和能力的效果。方法便利抽样法选取上海市某三级医院2011年在院实习的256名护理大专、本科生为研究对象,采用护理不良事件案例教学法
近年来,南通市物业管理行业在认真贯彻科学发展观和构建社会主义和谐社会思想,从便民、利民、为民的宗旨出发,围绕解决群众反映集中的热点、难点问题,提高行政效能、服务对象
<正> 晚清文学家姚莹在《论诗绝句》中说:“铁马楼船风雪里,中原北望气如虹,平生壮志无人识,却向梅花觅放翁。”姚明叔这首诗,对那些独“向梅花觅放翁”的有清一代的诗人、词