论文部分内容阅读
微博,即微博客,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过如WEB、WAP等各种客户端登录微博,并以最长140字(包含标点符号)的文字信息来更新微博、分享微博。微博作为重要的社交网络平台,以其便捷性、创新交互性和原创性的特点,逐渐影响着人们的生活和工作方式。近年来针对微博方面的研究越来越多,包括话题事件分析、情感分析、信息检索与推荐、网络关系分析、信息传播、影响力分析等,利用微博用户兴趣模型提供的精准化广告投放逐渐成长为一种主要盈利模式。微博用户兴趣建模方法的研究,对微博网站提高用户满意度,实现盈利和发展有很大的作用。2012年孙威《微博用户兴趣挖掘与建模研究》和2013年1月仇均《基于微博社会网络的用户兴趣模型研究》都对微博用户兴趣建模提出了自己的方法,但是侧重点不同,前者是在对体现微博用户兴趣信息的选取上重点研究,而后者的主要研究在于微博社会网络的构成方面。本文的出发点与以上二者又有不同,将微博文本的预处理作为侧重点进行研究。本文的研究内容包含两个部分:微博文本预处理和微博用户兴趣建模。其主要的研究内容和取得的成果如下:①停用词过滤方法研究:在中文文本处理过程中,停用词过滤是必不可少的环节,停用词过滤的准确性直接影响到了后续对于文本分析、内容抽取和相关性等的研究效果。本文根据停用词的特点,提出了基于上下文关系的停用词定义,并且通过分析停用词在词性方面的特征以及微博中文本的特点,提出了一种针对微博文本预处理的停用词过滤规则,可有效去除微博文本中的停用词。该方法处理快速、简单有效,为后续研究基于微博文本的用户兴趣建模提供了有效支撑。②新词发现方法研究:微博是一些新词、网络词汇的快速源产地,研究显示,60%的分词错误都是由新词导致的,而分词错误又会导致后续用户兴趣建模的不准确性,因此对微博文本进行新词发现方法的研究是提高用户兴趣挖掘的有效方法。本文从新词的构成方式着手,提出基于相邻词组的微博新词定义,并且根据微博文本的特点,对微博中“@”和“#”两种特殊符号所带来的特殊文本进行识别,并利用多元扩展的方法对候选新词集进行完善。③微博用户兴趣表示方法研究:根据微博文本信息,即个性标签、原创微博、转发微博、评论微博四类文本信息构成初始用户兴趣信息,而微博文本是属于短文本范畴,存在着数据稀疏性和碎片化问题,为了尽量克服这个问题的影响,提出结合概念的向量空间模型,并从短文本扩展角度,利用《同义词词林》构建概念词表进行概念映射对向量进行扩展,构成微博用户兴趣模型,很好反应了用户细粒度的兴趣。