基于隐含语义分析的微博热点话题发现策略

被引量 : 0次 | 上传用户:toponeforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个社会化媒体,微博的应用已经深入到人们的日常生活中,成为大家发布和传播信息、获取知识的重要平台。文本是网络信息的主要载体,包含着网民的观点与思想倾向,对网络舆情分析和话题发现具有重大应用价值和研究意义。然而,社会化媒体上的大部分文本信息都属于短文本,短文本信息的不完整性、海量性和奇异性导致舆情分析和热点话题发现十分困难。本文首先分析了中文微博信息的特点,然后结合国内外话题发现的研究现状和相关技术,提出一个适用于中文微博的热点话题发现方法。论文主要做了以下几个方面的工作:(1)短文本固有的特征稀疏和样本类别分布不均衡等特点,使得计算普通文本特征权重的方法难以直接套用。为此,提出一种针对短文本的基于综合类频的特征权重算法。该算法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。(2)采用隐含语义分析的方法对微博文本进行分析。传统向量空间模型通常基于特征词的匹配,但网络文本中存在大量的同义、多义词,导致文本相似度的评估结果不够准确。本文对原始的词条-文档矩阵进行奇异值分解,取部分奇异值较大的特征构成一个语义空间,最大限度保留了原矩阵中的有用信息,大幅降低了向量空间的维度。(3)提出基于层次和划分的混合聚类算法。层次聚类方法的特点是精度高,但耗费时间较长;而基于划分的K-means算法聚类速度快,但初始输入参数的随机性会导致聚类结果不稳定。本文在分析了基于层次和划分聚类算法各自的优势与不足之后,提出将基于层次和划分的算法相结合的混合聚类策略。该算法首先对数据集进行凝聚层次聚类,得到聚类个数和初始聚类中心后,再用K-means聚类进一步细化。实验结果表明,该算法在一定程度上改善了话题发现的效率和准确率。(4)根据提出的微博热度的定义,结合综合类频特征权重算法、层次与划分混合聚类算法与隐语义分析模型,提出了基于隐含语义分析的微博客热点话题发现策略,并对其进行验证实践。实践表明,该策略解决了向量空间模型中高维度和同义词问题,所得微博话题更接近真正的热点话题。
其他文献
国际金融组织贷款是我国利用外资并与世界相联系的一个重要途径,以世界银行为代表的国际金融组织在一定程度上对我国的经济发展和社会进步起到了推动作用。我国作为借用国际
介绍采用东丽法、国标法及用户法测定同一样品50次的测试数据。结果表明,每种方法的测试偏差值较小,测定结果可靠。热处理的温度、介质及附加预张力不同,测试数据很不相同。3
近几年大学生勤工俭学过程中遭遇侵权的事迹屡见报端。如何保护勤工俭学大学生的合法权益是学校与社会面临的课题。为了寻找对策,在武汉各大高校通过问卷调查和个别深入访谈
医药行业是关系国计民生,与人生命密切相关的特殊产业,近年来看病难、看病贵问题越来越受到社会的关注,虽然国家设立了基本药物制度和医保制度等多项政策,但这些问题仍然没有得到
近年来,随着经济的蓬勃发展,轨道交通建设与城市空间立体化开发在各大城市掀起高潮,产生了很多以轨道交通枢纽为核心的城市交通节点,也暴露出了很多城市空间使用上的问题。首先对
<正>(接上期)隋初开皇元年(公元581年)隋文帝杨坚曾一度将原属宫廷音乐机构太常的散乐人放出宫去,在宫廷留下从事雅乐活动以及表演"七部乐"(清商乐、国伎、龟兹伎、安国伎、
目的 :探讨骨化型腰椎间盘突出症的发病机理、临床表现、治疗机理和疗效。方法 :回顾性分析该病 76例临床资料 ,用手法触诊检查确定腰椎棘突偏歪方向 ,76例患者全部摄了腰椎
城市历史建筑的更新和再生以及新兴建筑的困惑和发展是现今每座城市建筑发展过程中都会遇到的问题。城市的历史建筑包含的不仅是本国的传统文化,更有历史阶段中融入的其他地区
<正>五管葫芦笙的指法,以五管葫芦笙为例,左手拇指按第二管上孔,食指按第一管上孔,无名指按第三、四管上孔,右手食指按第五管上孔,拇指兼按笙斗下方各管底孔。六管或七管葫芦
<正>根据工程实践,向大家介绍下卫生间防渗漏的小窍门。(1)对卫生间地面有低温热水辐射采暖的,要考虑地暖的敷设厚度,由楼板向上做一道高度不小于300 mm的素混凝土翻边。同时