论文部分内容阅读
在舆论自由的背景下,热点新闻更易成为公众议论的集中点和矛盾爆发点,预测热点新闻点击量,有助于政府和传媒工作者掌握事态发展趋势,提高对热点事件处理的主动性。同时,挖掘热点新闻话题演化轨迹能帮助公众更加快速全面地了解事件的演化轨迹,避免浅尝辄止和产生偏颇的观点。本文以新闻点击量预测和新闻演化脉络挖掘为研究重点,主要内容如下:(1)提出基于Grey Verhulst模型和极限学习机融合的新闻点击量预测算法;热点新闻点击量数据具有随机性和波动性,不利于后续准确的预测。本文提出的算法能够有效地过滤数据的随机波动噪声,同时保留数据分布规律,实验表明所提出的算法在新闻点击量预测上的平均准确率较其他算法提升了 7%。(2)提出新闻配图和新闻文本的多源特征表示算法新闻的特征表示是挖掘新闻话题演化轨迹的首要步骤,虽然新闻配图包含大量与事件相关的信息,但相对新闻文本而言容易被忽略。本文构建了一种简约深度卷积神经网络模型,用分类概率值表征图像语义特征,将图像与文本特征结合,共同表示新闻。实验表明多源特征的分类准确率较使用单一文本特征提高了 2.4%。(3)提出基于多标签分类的新闻演化轨迹挖掘算法在新闻演化过程中,新闻之间具有相互关联和时间紧邻的特点,建立t时刻和t+1时刻的新闻相似性度量模型是演化轨迹挖掘的核心。本文提出基于多标签分类模型的脉络挖掘方法,将标签共现作为新闻相似性度量的依据。实验表明获取的新闻话题演化脉络有较好的逻辑性,易于理解。