中文微博热点话题检测与自动文摘技术研究

来源 :东北大学 | 被引量 : 2次 | 上传用户:ghostwazy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博在当今已经成为互联网用户中越来越受欢迎的交流工具和平台。每天,有数以百万计的用户在微博平台上分享和发表着对生活当中各个方面的观点和看法。微博作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。它己经成许多重大事件爆发的第一现场,用户在微博上发布关于事件的第一手资料。为了使人们不仅能够获取微博中分散的信息,且能够及时了解整个微博中的热点话题,及时获取话题的后续信息,本文针对这几个方面分别进行了研究。首先,检测微博热点话题。微博热点话题具有以下三个特点:热门性、突发性、时效性。热门性可以从搜索次数和微博中提及率中体现出来,一个热门话题必然会成为用户在微博平台上议论的焦点;突发性是指,该话题在某个特点时间点突然爆发,在此之前可能少有人议论,或者没有被提到过,从该时间点开始搜索次数和提及率大量增加;时效性指的是该热点话题一旦产生,会在微博中停留一段时间,但很快将有新的话题取代旧话题成为热点。本文基于微博热点话题的以上三个特点提出了基于话题发现和话题合并的检测技术。获得热点话题之后,用户急需了解这个话题是关于什么。由于微博信息数据量十分庞大,逐条阅读会花费很多时间,自动提取微博摘要就成为了本文需要解决的第二个问题。本文将自动文摘的问题简化为从含有某话题的大量微博中找到一个子集,这个子集中的微博与话题的相关程度最强,且能够尽可能全面的描述这个话题。用户在微博中描述一个话题时使用的词语往往属于一个较为固定的词集,本文中将这个词集定义为某话题的特征词集合。因此本文提出了基于微博话题特征集的自动文摘技术,首先计算话题的特征词集合与所有微博文本之间的相似度,选择相似度最大的微博加入子集,然后再次分别计算所有微博与子集中微博的相似度,同时结合特征词集合与微博间的相似度,不断选择新的微博加入子集,直到子集中的微博个数达到预设值,这时子集中的微博就是能够最全面描述话题的微博集合。本文提出了中文微博热点话题检测和自动文摘的方法,实验结果表明该方法在时间效率在可接受的情况下比传统的方法提高了准确率。
其他文献
随着网络技术的发展,许多以网络为基础的信息管理应用领域孕育而生并不断壮大.电子商务、电子政务、办公自动化和企业信息系统的应用成为了当今管理信息系统应用的焦点.在这
随着网络应用的日益普及,越来越多的信息和资源都通过网络发布和转播,保障计算机网络安全越来越重要也越来越具有挑战怀,现在的各种静态安全技术,入防火墙、数据加密技术都比
随着互联网技术的发展,特别是IPv6,网络的规模正在迅速扩大,IP网络已经渗透到社会各个领域,尤其在教育、商业、金融等重要部门.基于TCP/IP的Internet(互联网)已把人们带入前
随着网络技术的发展和计算机使用的日益广泛,电子化数据越来越多,人们正面临"数据丰富而知识贫乏"的问题.数据挖掘技术为解决此问题开辟了一条道路,并越来越受到人们的重视.
当前企业信息化建设正处于蓬勃发展的时期,无数企业在享受信息化所带来的便利的同时,还不得不面对由于局部应用所带来的“信息孤岛”问题。 本文首先阐述了企业信息化现状和
随着后PC时代的到来,作为后PC时代中主导产品的嵌入式系统设备,正越来越受到人们的重视和关注,它的发展也正以前所未有的速度进行着.人们对嵌入式系统的需求和要求与日俱增.
信息家电是后PC时代计算机应用技术的一个重要领域,将构件技术和仿真技术应用于信息家电系统的开发,是当前信息家电系统开发的两个重要研究方向。使用这些技术可以降低信息家
随着无线局域网(WLAN)的广泛应用和对实时多媒体业务需求的不断增加,在无线局域网中提供质量保证服务(QoS,Quality of Service)已经成为一项重要的极具挑战性的任务。相对于传统的
近几年来,CAD/CAM/CAPP/CAE、CIMS、ERP、并行工程、虚拟制造、供应链、协同工作、成组技术、企业业务重组等新技术、新思想、新方法为企业创造出了巨大效益。但随着新技术的发展
地理信息共享是地理信息技术发展的必然要求和趋势,Web Services作为一种新的技术,为地理信息共享提供了新的形式。本文在对地理信息系统和Web Services相关技术进行深入研究