微博话题追踪方法研究与设计

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:qdmark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:现如今,互联网在人们的日常生活中扮演者越来越重要的角色,人们的工作生活都需要互联网的支持。随着互联网技术的日益发展,美国出现了Twitter这样的信息平台,而国内也出现了新浪、腾讯微博。借助微博平台,用户可以通过140以内的简短内容来发布消息,并且可以对感兴趣的微博进行转发评论。这样的高效的平台可以使一条有价值的新闻报道在短短几分钟内传遍全网,大大提高了用户获取最新消息的效率。然而,在信息爆炸的今天,对于海量的信息,人们可能显得无所适从。所以现在亟需一种方法来对信息进行整合处理,使得人们能够根据自己的需求获得自己想要的信息。本文对微博文本表示进行了研究。针对微博篇幅短小、实时性、口语化、原创性的特点,在原有的空间向量模型的基础上,提出了适合于微博的文本表示方法。该方法在对微博处理之前,先滤除掉字数小于N的微博,在分词之后,将所有的实词作为特征词。并且针对微博的特点提出了T-TFIDF权重计算方法。这种权重计算方法加重了微博小标题中词的权重。通过这些改进,使空间向量能够更好的表示微博文本内容。能够根据微博中词语的重要程度,赋予相应的权重值。将微博文本转化到向量空间中,在此基础上,本文提出了基于K-means聚类的微博自适应话题追踪方法。这种方法,可以根据用户给出的一到四篇微博,对实时采集到的微博语料进行追踪。经过微博与子话题向量集的相似度的比较,判别微博是否属于该话题。追踪的同时,对子话题向量集进行动态调整。具体的方法是,当微博被判定为属于该话题时,进行候选词的挑选及词频统计。若词频大于阈值,则判定出现新的子话题,并通过K-means聚类的方法对追踪到的微博进行聚类,并根据聚类结果对子话题向量集进行调整。这样子话题向量集就能够随着追踪到的微博进行动态调整,能够更精确的对话题继续追踪。此外,本文还对自动文摘在微博中的应用作了研究。首先以子话题向量集作为初始聚类中心对追踪到的微博进行聚类。再进行句子权重的计算,选出每一类中权重最高的句子作为每一类的文摘句。最后将这些句子按时间顺序排序,得到最后的话题文摘。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No. W11C100030)、北京科技计划(No.Z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。
其他文献
语音是人类最自然最重要的交流沟通方式,将语音信号中说话人的信息提取出来,即说话人识别,也称为声纹识别,是目前语音信号处理中的一个重要研究方向。随着智能计算、网络安全需求
随着移动通信技术的迅猛发展,下-代移动通信系统将是多种无线接入方式并存的异构融合网络。各种接入网络重叠覆盖,优势互补,在不同网络间的垂直切换作为移动性管理的重要组成部
伴随超短脉冲在各个领域的应用,人们对于超短脉冲的峰值功率和脉宽有了越来越高的要求,因此对超短脉冲的产生和放大技术的研究具有深远的科学意义和实用价值,在国内外也备受瞩目
随着计算机视觉技术的发展,在农业、工业、医学工程等领域,图像处理技术的应用越来越广泛。针对目前轻工业的纺织领域,每个蚕茧槽绪下蚕茧的计数方法——人工计数已不能满足纺织
随着科技的发展,高速飞行器研制成功,飞机等空中目标的速度越来越快,目标的高速运动会对回波信号产生很大的影响,因此传统的目标检测方法不再适用。针对该问题,本文采用长时
正是由于计算机技术的快速发展,计算能力得到很大程度的提高,才使得利用计算机实现人类的视觉功能成为目前计算机领域中最热门的研究课题之一。行人检测与跟踪技术作为计算机
随着通信和信息技术的飞速发展,网络应用领域变得更加广泛,深刻影响着人们的日常工作和生活。由于网络的应用范围在不断扩大,网络用户的数量也在逐年增加,这使得网络状况逐渐
近年来,基于机器视觉的动物行为检测和识别已经成为了机器视觉研究领域的热点之一。本文在机器视觉应用技术基础上,通过构建星状骨架模型来提取出模型角度参数。利用角度的统计
步态识别是一种基于人体生物特征的新型识别方式,也是国内外的研究机构和学者目前重点研究的课题之一。它融合了计算机视觉、模式识别和图像序列等多种计算机与信号处理领域
信息技术的迅猛发展使人们生产与收集的数字化数据越来越复杂,除了数据的维度越来越高,表示形式也越来越多样化,呈现出多态性、多源性和多描述性的特点,这些数据通常被统一称