论文部分内容阅读
随着人工智能的高速发展和数据挖掘技术的不断更新,文本分类已经成为自然语言处理中最常用的应用场景,其在舆情分析、机器翻译和聊天机器人等领域都有广泛的应用。现阶段文本分类技术有很多,但是朴素贝叶斯分类模型(Naive Bayes Classifier,简称NBC)已经成为最常用的分类模型之一。朴素贝叶斯分类模型在众多领域中均有很好的分类性能,但该分类模型也具有一定的局限性,例如需要满足属性之间相互独立的条件假设,而该条件假设在实际应用中却经常难以满足。基于该条件假设研究者们从扩展结构、特征选择、特征加权和朴素贝叶斯模型与其他模型相结合四个方面做出了推广,并取得了较好的效果。本文在前人的研究基础上,利用主成分分析(Principal Component Analysis,简称PCA)改进了朴素贝叶斯分类模型。基于主成分分析的朴素贝叶斯分类模型,简称PCAWNBC模型。本文利用主成分分析的主成分之间是相互独立性质,有效缓解了朴素贝叶斯相互独立的条件假设;再利用主成分的方差贡献率作为属性的特征权重,消除了同一属性对不同类别具有相同值的(权重均为1)缺陷。通过上述的分析后,本文将PCAWNBC模型应用到新闻文本分类的实例中。采用网络爬虫技术,使用Python从网上抓取十类,每类1200篇,共计12000篇新闻文本作为训练集。以12000篇新闻随机选3000、6000、9000及12000篇为横向,以NBC、PCAWNBC、逻辑回归、K近邻及支持向量机为纵向,从准确率、召回率、1F值和训练时间四个方向评估各分类模型在不同数据集上的分类性能。得到如下结论:在不同数据集上,PCAWNBC模型相比NBC模型的准确率均约提升5%;当数据量增大时,PCAWNBC模型的分类性能比NBC、逻辑回归、K近邻及支持向量机效果会更好。