基于文本的网络舆情话题跟踪的研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ruifanglong198526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,当今社会进入了一个信息爆炸的时代,人们可以自由的使用网络来表达自己对某一事物的看法和态度,网络现已渐渐成为舆情产生和传播的重要发源地。许多不利于人们生活与社会和谐发展的信息充斥着互联网各个角落,对社会公共安全造成极大的威胁,网络舆情的研究对维护社会稳定和促进国家发展有着深远的意义。话题跟踪是话题检测及跟踪的一项子任务,目的是监控新闻报道流,识别出与已知话题相关的后续报道。本文主要对基于文本的网络舆情话题跟踪进行研究。论文的主要工作是:1.研究实现话题跟踪所涉及到的相关及关键技术:网络爬虫、文本提取、中文分词、新闻报道的特征项选择、权重计算、话题/报道模型构建及两模型之间相似度的计算;2.实现了基于话题更新的自适应话题跟踪算法,该算法针对传统话题跟踪算法话题模型中训练报道稀疏性问题和自适应话题跟踪算法中话题漂移问题,采用自适应信息过滤的思想,并将话题模型进行更新,提高了话题模型的适应度;3.提出两种基于时间信息的自适应话题跟踪算法:基于时间信息的相似度调整的自适应话题跟踪算法和基于时间信息的动态阈值的自适应话题跟踪算法,并给出了算法的流程。这两种算法都利用了基于话题更新的自适应话题跟踪算法的优点,并且依据新闻报道随时间变化呈动态发展的特性,利用时间信息,从相似度和阈值这两个不同的角度来考虑问题,提出算法。实验证明,这两种算法都具有良好的性能;4.提出了基于文本的网络舆情话题跟踪系统的总体设计方案,并给出了系统各子模块的实现方法;5.提出了确定特征项选择的最佳个数和最佳初始阈值的实验方法,并通过实验证明选择最佳的特征项个数能够降低特征向量维数,而又可以使系统性能趋于平稳,最佳初始阈值可以使算法性能达到最优。
其他文献
提出了一种结合最新TDT技术、基于增强学习的优先Web环境主题搜索策略,并以此设计主题搜索器系统。该系统通过引入基于领域知识的TDT文本分类技术,大大改进了基于关键字的Nai
随着网络技术的不断发展,信息安全面临着诸多的安全威胁,越来越多的攻击者在程序中插入恶意行为。安全研究人员基于特征码的静态分析,通过特征库高效快速地对恶意行为进行匹
目的探讨高血压脑出血术后再出血的原因及防治措施。方法回顾性分析我院近年来收治的80例高血压脑出血患者术后再出血的临床资料。结果根据血肿量和占住效应,35例(43.75%)再出血患
1 临床资料 患者,男,16岁,48kg。入院前9d,患者晚餐进食当日中午剩菜(马铃薯为主)和汤圆、葡萄后,于次日上午起床时出现头晕、眼花和呕吐表现,呕吐物性状及次数不详,未有腹泻、
结合多年工作实践,针对先简支后连续的箱梁设计、施工中经常出现的质量通病,提出了防治措施及建议。
目的通过心电图正常的冠心病患者冠状动脉造影特点,探讨心电图与慢性冠状动脉供血不足冠脉病变的关系。方法将140例典型的心前区疼痛病史而心电图正常的患者进行诊断性冠状动
<正> 历史事件名称可分为由月日数字命名的事件名称、由旧历年号命名的事件名称和由地名命名的事件名称等三类。目前出版物中在历史事件名称方面使用引号的情况非常混乱,甚至
期刊