论文部分内容阅读
随着我国网民规模不断扩大与移动互联网技术的蓬勃发展,网络新闻成为了主要的网络信息载体。传播范围广、流行程度高的网络新闻能够为新闻媒体带来巨大利润,可预见的流行度高的新闻可以被给予更多的推广资源以扩大其带来的收益。因此提取并研究决定在线新闻流行程度的特征,建立模型在新闻发布前预测新闻能否流行具有一定的研究价值。本文使用的数据来自在线新闻网站Mashable,其中包含了词语、链接、数字媒体、关键词、时间、自然语言处理等61个新闻的特征,基于网络新闻的特点将数据分为无文本新闻与含文本新闻展开研究。
本文以网络新闻的分享量作为指标从特征性选择角度出发,使用XGBoost模型提出了一种可以预测网络新闻流行与否的二分类方法。由于新闻数据存在冗余特征对模型的预测与泛化能力产生影响,所以本文从特征选择的角度展开研究。本文构建并改进了两种特征选择模型对影响新闻流行度的特征进行筛选:其一受机器学习集成模型的启发,本文进行了特征选择集成的可行性推导,并在模型中采用序列后向选择对基特征选择方法进行贪心选择然后进行集成,集成方法比基特征选择方法能够选择出更小的特征子集;其二在遗传算法进行特征选择中,本文对适应度函数施加了惩罚项,经过对比改进的适应度函数能够使遗传算法选择出大小更小、预测与泛化效果更好的特征子集。
模型评价方面,本文采用了测试集AUC、训练集AUC与模型运行时间综合评价了所有模型的预测能力、过拟合情况和运行效率。通过与未进行特征选择和传统特征选择方法下的数据对比,得出结论在小样本的无文本新闻数据中使用改进遗传算法能得到最佳的特征子集,在大样本的含文本新闻数据中使用集成特征选择方法更好。然后本文基于实证结果对新闻媒体提出相应的建议。最后总结本文的不足之处并进行展望。
本文以网络新闻的分享量作为指标从特征性选择角度出发,使用XGBoost模型提出了一种可以预测网络新闻流行与否的二分类方法。由于新闻数据存在冗余特征对模型的预测与泛化能力产生影响,所以本文从特征选择的角度展开研究。本文构建并改进了两种特征选择模型对影响新闻流行度的特征进行筛选:其一受机器学习集成模型的启发,本文进行了特征选择集成的可行性推导,并在模型中采用序列后向选择对基特征选择方法进行贪心选择然后进行集成,集成方法比基特征选择方法能够选择出更小的特征子集;其二在遗传算法进行特征选择中,本文对适应度函数施加了惩罚项,经过对比改进的适应度函数能够使遗传算法选择出大小更小、预测与泛化效果更好的特征子集。
模型评价方面,本文采用了测试集AUC、训练集AUC与模型运行时间综合评价了所有模型的预测能力、过拟合情况和运行效率。通过与未进行特征选择和传统特征选择方法下的数据对比,得出结论在小样本的无文本新闻数据中使用改进遗传算法能得到最佳的特征子集,在大样本的含文本新闻数据中使用集成特征选择方法更好。然后本文基于实证结果对新闻媒体提出相应的建议。最后总结本文的不足之处并进行展望。