基于集成学习特征选择的新闻流行度预测研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lyre1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国网民规模不断扩大与移动互联网技术的蓬勃发展,网络新闻成为了主要的网络信息载体。传播范围广、流行程度高的网络新闻能够为新闻媒体带来巨大利润,可预见的流行度高的新闻可以被给予更多的推广资源以扩大其带来的收益。因此提取并研究决定在线新闻流行程度的特征,建立模型在新闻发布前预测新闻能否流行具有一定的研究价值。本文使用的数据来自在线新闻网站Mashable,其中包含了词语、链接、数字媒体、关键词、时间、自然语言处理等61个新闻的特征,基于网络新闻的特点将数据分为无文本新闻与含文本新闻展开研究。
  本文以网络新闻的分享量作为指标从特征性选择角度出发,使用XGBoost模型提出了一种可以预测网络新闻流行与否的二分类方法。由于新闻数据存在冗余特征对模型的预测与泛化能力产生影响,所以本文从特征选择的角度展开研究。本文构建并改进了两种特征选择模型对影响新闻流行度的特征进行筛选:其一受机器学习集成模型的启发,本文进行了特征选择集成的可行性推导,并在模型中采用序列后向选择对基特征选择方法进行贪心选择然后进行集成,集成方法比基特征选择方法能够选择出更小的特征子集;其二在遗传算法进行特征选择中,本文对适应度函数施加了惩罚项,经过对比改进的适应度函数能够使遗传算法选择出大小更小、预测与泛化效果更好的特征子集。
  模型评价方面,本文采用了测试集AUC、训练集AUC与模型运行时间综合评价了所有模型的预测能力、过拟合情况和运行效率。通过与未进行特征选择和传统特征选择方法下的数据对比,得出结论在小样本的无文本新闻数据中使用改进遗传算法能得到最佳的特征子集,在大样本的含文本新闻数据中使用集成特征选择方法更好。然后本文基于实证结果对新闻媒体提出相应的建议。最后总结本文的不足之处并进行展望。
其他文献
自重商主义学派代表学者托马斯·孟提出“汇率变动是国际贸易的重要影响因素”之后,汇率就被各国政府当作调节对外市场的一项重要工具,以求在国际贸易中获得对本国有利的地位。传统国际收支理论认为,一国货币的贬值能够促进出口,升值会抑制出口。21世纪初,国外学者们曾将人民币汇率低估看作中美贸易巨额顺差乃至全球经济失衡的罪魁祸首,这其中不乏像克鲁格曼这样的经济大师。然而,事实并非如此。自1994年我国实行有管理
随着中国特色社会主义进入新时代,我国经济发展进入新常态,建立与新发展阶段相适应的国有资本配置,提高国有资本运行效率,实现我国经济高质量发展迫在眉睫。经济高质量发展需要更合理的资源配置、更优化的经济结构,从管理学的角度看,以资本运营为核心的资本管理,是最有效率的资产保值增值环节,而资本运营的过程,事实上就是通过资本有目的运动和资本形态规则变化,实现资本增值的过程。优化存量资本结构是实现资本管理过程的
学位
棚户区改造是针对城市里存在历史存留的危旧住房以及公共设施难以匹配,有明显安全隐患的旧村旧城,本着解决群众出行、住房安全、生产宽敞、生活便利、公共安全能够应急保障和环境卫生可以保洁等城市农村历史顽疾,消除公共安全隐患、优化生产生活环境,解决一大批困难家庭住房与社会发展不适应等问题,是一项民心工程。改善棚户区项目周围的道路,广场,教育和商业等基础设施,提高居住环境中的知名度,在改造棚户区的同时促进整体
经济运行过程中,不同经济主体特征以及经济主体间行为具有明显的差异性。经典的经济理论出于简化和技术的限制,假设经济理性人具有同质性特征,以此为基础去揭示经济运行的规律和特征。经济学实证研究较多基于单一化或同质性数据建模,即假设数据样本均来自于同一个回归模型。尽管同质性假设在很大程度上有助于简化参数估计和统计推断,但是忽视数据的异质性特征可能会无法精确揭示经济变量之间的关系。近年来,由于数据存储、大数
学位