论文部分内容阅读
随着网络的快速发展,当今社会进入了一个信息爆炸的时代,人们可以自由的使用网络来表达自己对某一事物的看法和态度,网络现已渐渐成为舆情产生和传播的重要发源地。许多不利于人们生活与社会和谐发展的信息充斥着互联网各个角落,对社会公共安全造成极大的威胁,网络舆情的研究对维护社会稳定和促进国家发展有着深远的意义。话题跟踪是话题检测及跟踪的一项子任务,目的是监控新闻报道流,识别出与已知话题相关的后续报道。本文主要对基于文本的网络舆情话题跟踪进行研究。论文的主要工作是:1.研究实现话题跟踪所涉及到的相关及关键技术:网络爬虫、文本提取、中文分词、新闻报道的特征项选择、权重计算、话题/报道模型构建及两模型之间相似度的计算;2.实现了基于话题更新的自适应话题跟踪算法,该算法针对传统话题跟踪算法话题模型中训练报道稀疏性问题和自适应话题跟踪算法中话题漂移问题,采用自适应信息过滤的思想,并将话题模型进行更新,提高了话题模型的适应度;3.提出两种基于时间信息的自适应话题跟踪算法:基于时间信息的相似度调整的自适应话题跟踪算法和基于时间信息的动态阈值的自适应话题跟踪算法,并给出了算法的流程。这两种算法都利用了基于话题更新的自适应话题跟踪算法的优点,并且依据新闻报道随时间变化呈动态发展的特性,利用时间信息,从相似度和阈值这两个不同的角度来考虑问题,提出算法。实验证明,这两种算法都具有良好的性能;4.提出了基于文本的网络舆情话题跟踪系统的总体设计方案,并给出了系统各子模块的实现方法;5.提出了确定特征项选择的最佳个数和最佳初始阈值的实验方法,并通过实验证明选择最佳的特征项个数能够降低特征向量维数,而又可以使系统性能趋于平稳,最佳初始阈值可以使算法性能达到最优。