基于内容分析的Blog话题检测方法研究

被引量 : 0次 | 上传用户:ersand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测技术是面向文本信息流进行未知话题识别的信息处理技术,它是话题检测与追踪技术的重要组成部分。这项技术旨在从特定时间和地点发生的事件扩展为具备更多相关外延的话题,它在信息抽取和舆情监控方面有很大的实用价值。目前,常见的话题检测算法大多面向具备突发性和延续性规律的新闻网站语料,而专门针对博客空间的话题检测算法并不成熟,这是因为博客属于个人媒体,跟新闻语料相比,具有数据量庞大和形式多样化的特点。本文通过对博客数据的结构深入分析,明晰了对博客数据进行话题检测的主要技术需求。针对博客数据形式多样化的特点,选取必要特性转化为新的话题模型——话题质心和关键词序列为主的话题模型,并基于该话题模型设计了话题检测算法,话题关键词提取算法,专题提取算法。本文的主要贡献体现在以下几个方面:(1)本文设计了符合博客数据特性的话题模型。话题模型由多个特征组成,其中包括:话题名称、关键词序列、话题质心、博文集合、话题发起时间。话题模型贯穿于本文的三个核心算法:话题检测算法和话题关键词提取算法在博文的基础上生成话题模型;专题抽取算法在话题模型的基础上作进一步话题组织工作。(2)文中通过分析各类常用的文本聚类算法,从中选取了增量聚类算法作为话题检测算法的基础。引入了改进话题检测效果的三项优化策略:话题质心更新、文本过滤、话题模型选择。通过对比实验证明了话题检测算法的有效性。(3)设计了话题关键词提取算法,为每一个话题提取标志性词汇集合。此算法主要采用了文本特征选择的互信息原理,并引入了对在博文标题中出现的词进行加权的优化策略。通过实验证明了关键词提取算法的有效性。(4)在话题模型的基础上实现了专题提取算法。该算法以层次聚类思想为基础,主要选用了话题模型特征中的三项特征:关键词集合、话题质心、话题发起时间。对各项特征建立不同的相似度计算公式,以计算话题模型之间的相似度。最后通过实验证明了专题提取算法的有效性。基于以上研究成果,本文设计博客话题检测系统,该系统由五大模块组成:数据库模块,数据预处理模块,话题检测模块,话题模型特征提取模块,专题提取模块。通过编程技术实现了Blog话题检测原型系统,为博客话题检测技术的研究打下了坚实的基础。
其他文献
当今时代,科学技术的进步拓展了人们的视野,边缘性学科、横断性学科与综合性学科之间的相互渗透与融合,使得人类的知识领域呈现出从分析走向综合的发展趋势。建筑学藉此获得
目的:为确定中药远志的合理采收时间。方法:采用薄层扫描法,测定了不同物候期远志根中远志皂甙的含量。结果:现蕾期远志根中远志皂甙的含量最高,其动态规律为现蕾期> 盛花期> 果期>
人们一直致力于男性避孕方法的开发,而睾丸局部受热导致可逆性生精障碍可能是一种候选的男性避孕途径。本实验室前期对受试者进行每天43°C水浴30分钟,连续6天的阴囊局部加热
在刑法理论和司法实践中,抢劫罪中“非法占有”问题的理解和认定,众说纷纭,本文对此的研究将有助于现实案件的分析处理。 In the criminal law theory and judicial practic
晋远2号是山西省农业科学院经济作物研究所选育的远志新品种。本文介绍了晋远2号的选育经过及特征特性,简述其栽培技术,以供相关工作人员参考。
在现代教育环境下 ,需要对中小学教师在教育教学中的作用与地位予以重新审视 ,力求把握准教师的角色与定位问题 ,这有利于指导现代教育技术工作的开展。所谓教师的定位与角色
在考虑金融数据的非正态分布的条件下,使用更接近市场实际的SGT(Skewed Generalizedt Distribution)分布取代正态分布,建立了基于SGT分布的VaR(Value-at-risk)计算模型,然后
近年来,随着国家基础建设的投入和加大,整个测绘行业进入到产业高速发展的关键时期。而旺盛的市场需求与行业现有的营销模式不相协调。越来越多的企业希望在市场营销中寻找突