论文部分内容阅读
微博在当今已经成为互联网用户中越来越受欢迎的交流工具和平台。每天,有数以百万计的用户在微博平台上分享和发表着对生活当中各个方面的观点和看法。微博作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。它己经成许多重大事件爆发的第一现场,用户在微博上发布关于事件的第一手资料。为了使人们不仅能够获取微博中分散的信息,且能够及时了解整个微博中的热点话题,及时获取话题的后续信息,本文针对这几个方面分别进行了研究。首先,检测微博热点话题。微博热点话题具有以下三个特点:热门性、突发性、时效性。热门性可以从搜索次数和微博中提及率中体现出来,一个热门话题必然会成为用户在微博平台上议论的焦点;突发性是指,该话题在某个特点时间点突然爆发,在此之前可能少有人议论,或者没有被提到过,从该时间点开始搜索次数和提及率大量增加;时效性指的是该热点话题一旦产生,会在微博中停留一段时间,但很快将有新的话题取代旧话题成为热点。本文基于微博热点话题的以上三个特点提出了基于话题发现和话题合并的检测技术。获得热点话题之后,用户急需了解这个话题是关于什么。由于微博信息数据量十分庞大,逐条阅读会花费很多时间,自动提取微博摘要就成为了本文需要解决的第二个问题。本文将自动文摘的问题简化为从含有某话题的大量微博中找到一个子集,这个子集中的微博与话题的相关程度最强,且能够尽可能全面的描述这个话题。用户在微博中描述一个话题时使用的词语往往属于一个较为固定的词集,本文中将这个词集定义为某话题的特征词集合。因此本文提出了基于微博话题特征集的自动文摘技术,首先计算话题的特征词集合与所有微博文本之间的相似度,选择相似度最大的微博加入子集,然后再次分别计算所有微博与子集中微博的相似度,同时结合特征词集合与微博间的相似度,不断选择新的微博加入子集,直到子集中的微博个数达到预设值,这时子集中的微博就是能够最全面描述话题的微博集合。本文提出了中文微博热点话题检测和自动文摘的方法,实验结果表明该方法在时间效率在可接受的情况下比传统的方法提高了准确率。