基于增量聚类的微博话题检测系统的设计与实现

被引量 : 5次 | 上传用户:rstkjs123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测技术是话题检测与跟踪技术的重要组成部分,旨在在线从新闻媒体信息流中自动识别其中存在的话题并同时发现新话题。现有的话题检测算法主要面向传统新闻网站上的语料进行话题检测,而本文研究的是面向微博平台的话题检测。本文深入分析了微博文本的组织形式,明晰了对微博信息进行话题检测的主要技术需求,重点研究了微博信息采集与清洗方法、话题检测算法和话题热度评估方法,取得了以下三个方面的研究成果:(1)提出了一种面向微博领域的信息采集和清洗方法。在信息采集的过程中,通过分析微博作者的特征以及文本特征判断是否要收录该条微博,从而避免采集到一些“噪声”微博。该方法提高了微博采集的效率和采集到的微博质量。(2)提出了一种适用于微博的话题检测算法。根据微博用语灵活的特点,本文首先对微博文本进行预处理,继而提出了增量DBSCAN话题检测算法,该算法能够处理增量化更新的数据并且优化了聚类策略,使之能够满足在线话题检测的需求。该算法提高了话题检测的质量和效率。(3)提出了一种综合用户参与度和话题关注度的话题热度计算方法。通过在热度评分算法中融入用户参与度和话题关注度两个要素进行计算,并与话题检测算法有效结合,使得话题检测结果能以更加科学合理的方式呈现出来。基于以上成果,本文设计并实现了一个微博话题检测系统,该系统使用户能从宏观上直观了解到在整个微博平台上的发生的话题并且对感兴趣的话题进行跟踪关注,大大提高了用户信息获取的效率,具有一定的实用价值。
其他文献
冲击地压、岩爆等岩体工程灾害本质上是能量非线性演化至灾变的过程,从能量角度研究岩石的变形破坏规律,可以突破应力应变分析的传统模式局限,对于岩体力学行为的深入认识带
随着我国煤炭工业固定资产投资的高位运行,加之当前国内煤炭需求不足以及国际煤炭进口冲击,我国煤炭产能过剩形势更趋明显。因此,科学分析煤炭产能过剩的成因机理,合理构建一套具
包含有"折垣"和"祭越"的两枚悬泉汉简由张德芳先生于2002年刊布,它们是两个过去未曾知晓的西域国家的名字。本文对简文涉及的相关内容进行了历史背景考察和语源学分析,在此基础上
目的:通过检测原因不明多发性流产模型(CBA/J雌鼠×DBA/J雄鼠)小鼠胎盘中的NKT的细胞数量、成熟度和细胞因子的分泌格局,以探索NKT细胞失调在原因不明多发性流产中的可能作用
R软件是一款功能强大、易于使用的免费开源统计计算软件,可使用于多种平台。R软件具有完整的数据载入、编辑、试验设计、统计分析和图形制作等功能。在《试验设计与数据处理
<正>现年23岁的吴华华是广东省中山市人。2002年中专毕业后,她只身来到广州打工,在天平架灯饰城帮一位浙江老板照看店铺,每月工资只有600元。
伴随着中国经济的崛起,人民币的国际地位不断提升,人民币国际化问题是中国经济发展过程中不可不面对的问题。随着中国经济实力的不断增强,人民币币值在国际市场的不断上升保持坚
当前中国已进入快速城市化阶段,从1998年到2011年城市化水平由30.4%迅速上升到47%。新增城市人口主要来自农村人口转移,农民工正是改革开放以来伴随工业化、城镇化进程而产生的
中国的文学研究,向来是以人格为中心的价值研究。作为楚辞研究的中心,屈原的人格话题自然经久不衰。屈原以生的追求,体现了其生命的价值;又以死的选择,升华了他的人格价值。
煤矿的安全问题已经成为煤矿可持续发展的头等大事,而如何提前发现并判别潜在的安全风险是煤矿安全问题的重中之重。本文在理论分析与实际调研的基础上,主要解决两个问题。一是