网络舆情热点发现相关技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wocaonima3344521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络媒体已成为人们获取信息的重要来源,网络纷繁复杂的内容信息对社会大众的影响力大大提高。传统的由专业人员通过人工方式对新闻语料进行分析,并提取其中的热点话题难以实施,如何采用自动化的方式在庞大的信息流中快速发现热点话题,已经成为一个重要的研究方向。本文在研究当前热点话题发现方法的基础上,针对在话题识别过程中容易造成主题漂移的缺陷,以分析话题特性为基础设计了一种网络热点话题发现模型。本文的主要研究内容有以下两个方面:提出了基于报道主题划分思想的热点话题识别过程。分析了由于话题和报道的多侧面性导致将整篇报道用单一向量表示时造成的两种主题漂移,提出了对报道进行主题划分的思想,并通过实验验证了TextTiling算法对新闻报道进行主题划分的可行性。给出了基于两层聚类的主题识别方法,并通过实验和单遍聚类算法进行了比较,表明两层聚类算法具有更好的主题区分能力,并具有可以接受的时间性能。提出了基于主题划分思想的话题的种子报道的选择方法和话题的主题更新方法,及利用报道之间存在共同主题的特征进行话题识别的过程。提出了在处理增量语料的过程中使用多策略的优化方法。通过对分组语料使用过滤策略和相似度衰减的方法,避免了不相关话题的比较,提高了系统的性能,同时防止了两个相似的话题互为噪音,提高了系统的准确性。综上所述,本文在分析话题特征的基础上,重点对基于报道主题划分思想和在语料增量过程中采用多策略优化的热点话题识别过程进行了详细设计,并通过实验验证了方案的可行性,有效的改善了主题漂移问题,从而提高了热点话题的检测性能。最后本文还叙述了有待改进的方面。
其他文献
煤矿企业的生产、运输、管理是一种移动的、复杂的、与空间位置信息紧密相关,对安全性要求极为严格的过程。在此过程中,大量的相关信息,例如:矿区地理地形、煤炭运输车辆定位
计算机流媒体技术在视听娱乐、安防监控、即时通信、远程教育等诸多方面有着广泛应用。流媒体应用普及的同时,盗版、侵权和篡改等安全问题也日益严重。为应对这些问题,流媒体
随着数据库在数据管理和决策中的应用不断普及,数据库系统安全显得至关重要。传统的以预防和保护为中心的数据库安全机制重点关注数据库机密性,在很多情况下忽略了数据完整性
树的运动的模拟是自然景观模拟的重要组成部分。它是一项十分复杂的任务,尤其是关于树枝断裂的模拟,更是树的运动模拟中的难题之一。因此,对树枝断裂现象的研究是十分有价值
随着测序等生物科学技术的发展,生物数据总量以及数据的复杂性正在高速地增长。对于同一种生物数据,不同的生物学家可能会使用不同的描述方式,这样就会导致其他人对生物数据
随着Internet的迅速发展,新信息、新产品每天都在不断被放上Web,同时,用户的种类、数量和关注点也在增加。一方面,用户从浩瀚如烟的信息中找到自己需要的信息越来越困难;另一方面,W
为有效评估计算机网络的安全状况,进而使网管人员尽早发现网络存在的脆弱性并采取修补、防范等措施,本文对基于FCM的网络安全评估模型、基于NASL的远程主机脆弱性探测、基于A
学位
近年来,随着我国公路路网建设进入高速发展时期,越来越多的高速公路隧道在我国多山地区投入使用。隧道监控系统采集到越来越多的隧道内环境数据,但是这些数据由于未受到足够的重
目前,移动、电信和联通三大通信运营商都采用指定第三方代维公司来进行基站维护工作的管理模式,基站发电工作是确保基站电力供应,保障基站不退服的重要工作之一。由于大部分通信基站都直接采用市电电力,当出现大面积和长时间市电断电时,基站维护发电需要采取科学合理的调度方法。在实践中常用的调度方法,例如经验判断法、排队法、规划法等,都有各自的局限性,因此,研究科学、适用和实用的基站发电调度方法,开发基站维护发电