基于高效用模式挖掘的微博文本突发话题检测方法研究

来源 :武汉大学 | 被引量 : 7次 | 上传用户:jxncjwt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从微博文本数据中进行突发话题检测不仅可以帮助用户过滤信息,提高信息获取效率;而且可以帮助政府和企业提前预知热点话题,辅助管理者做出恰当的决策和及时采取措施。然而,微博文本用词不太规范,单位文本长度很短,语义表达能力有限,因此如何在夹杂着诸多噪声信息的庞大数据集中尽可能快速和准确地探测出突发话题是一个非常具有挑战性的任务。高效用模式挖掘算法的提出和不断发展成熟为突发话题检测任务提供了新的发展契机和构建思路,算法强调的内外部效用值可以分别用于表述话题的热度和突发性。然而,基于高效用模式挖掘技术的应用依旧处于起步阶段,在突发话题检测领域还未有人尝试,因此如何将两者进行有机结合是一个亟待解决的研究课题。本文将高效用模式挖掘算法引入到突发话题检测任务中,旨在探测出更具有现实意义的突发话题。具体而言,本文的研究工作主要分为如下三个部分:首先,本文提出一个用于突发话题检测的框架—ET-EPM,该框架将突发话题检测任务转化为一个突发模式挖掘和聚类任务。在词汇和模式的突发性衡量方面,本文提出一个基于局部加权线性回归算法的新颖性计算方法,理论分析和实证数据均表明该方法能够指导高效用模式挖掘算法挖掘获取到突发性比较高的模式。其次,本文将词嵌入向量融入到基于模块划分的图分割算法中,完成将模式集聚类为话题簇的过程。基于词嵌入向量的模式文本表达方式具有较高的语义表达能力,能够显著提升短文本相似度衡量性能。采用基于模块划分的图分割算法进行模式聚类,不仅无需指定聚类个数,而且能够确保收敛到全局最优解,在对数据流文本进行聚类时,具有更好的适用性。最后,本文在提出一种新的基于哈希标识的话题短语表达方式的基础上,还采用了传统的话题词汇表达形式作为补充。结合词汇和短语两种表达形式,不仅能够使得输出的话题具有更好的语义表达能力,还能确保不会遗漏任何话题。在新浪微博文本集上进行的实证研究表明本文提出的ET-EPM框架在突发性指标和综合性能方面相较于当前一些比较前沿的突发话题检测算法拥有更好的性能,从而证明了本文提出的框架在从新浪微博文本流中进行话题检测方面的有效性。
其他文献
针对目前普遍存在的建设项目前期工作滞后,前期方案深度不够等问题,提出了需对项目经济评价的方法与参数进一步完善,重视市场预测、风险问题及清偿能力分析,提高技术经济人员的综
根据高压加氢装置的特点,通过中国石油多个加氢裂化装置的建设施工实践,总结出金属环连接法兰密封施工主要程序、质量控制重点,以及密封面泄漏原因分析、处理措施、密封面常规研
信息安全防护是信息时代主要工作之一,随着时代进步,配网自动化工作被提上日程并初步实现,其信息安全工作得到了广泛重视。基于此,本文以配网自动化信息安全问题作为切入点,
提出一种采用植被物候校正的指数VPAUI,并将其应用于中部城市群的建设用地扩张监测.首先利用植被物候参数对NTL数据进行去饱和处理并构建VPAUI,然后建立建设用地丰度和VPAUI
随着现代社会网络技术的快速发展,国防、经济、工业、通信、电力等各个领域对网络授时的需求日益强烈,网络用户数量急剧增加,对NTP网络时间服务器的响应能力提出了更高的要求。论文选题结合国家授时中心“一三五”重点培育方向高性能时间频率仪器研制发展目标和时间用户对多核NTP服务器的需求,基于树莓派多核处理器和Linux环境设计实现了NTP服务器平台,并开展了服务器响应能力定量试验研究,具有一定的研究意义和
在功能描述方法分析的基础上,提出一种对功能进行扩展建模的方法。建立扩展功能基模型及其基于本体的描述策略;提出表征功能之间关联的扩展功能关联模型,包括功能的逻辑关系
为确定石河子地区地下水优先控制污染物,采用综合评分法对地下水中检出的12种污染物进行优先排序,选取污染物检出率、生物累积性、生物降解性、潜在危害指数、是否为有毒化学
针对SART迭代重建算法所需投影数据量大且迭代时间长的问题,将TV算法引入SART中,动态调节梯度步长来加速算法的收敛性能,实现用少量投影数据重建出高质量的图像。为加快算法的执
中国工商银行股份有限公司(以下简称“工行”)河南省分行代收燃气费系统在项目开发时遵循软件工程开发规范,应用标准化管理和开放性技术,采用基于UML用例的分析与设计,融入了分层
双层优化有着上下两层目标需要去优化,上层决定下层,下层影响上层,每确定一个双层优化问题的可行解,都需要求解一个下层优化问题。无论是经济、管理、工程、网络等这些大领域,还是市场营销、股票买卖、设施选址、流量规划等这些小问题,都无不体现着双层优化的应用价值。然而由于双层优化层级化的结构特征,以及非凸、不可微等函数性质,导致其是一种NP-hard问题。目前双层优化存在的挑战主要有:(1)如何快速追寻下层