微博文本预处理与用户兴趣建模方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:angelboy8100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博,即微博客,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过如WEB、WAP等各种客户端登录微博,并以最长140字(包含标点符号)的文字信息来更新微博、分享微博。微博作为重要的社交网络平台,以其便捷性、创新交互性和原创性的特点,逐渐影响着人们的生活和工作方式。近年来针对微博方面的研究越来越多,包括话题事件分析、情感分析、信息检索与推荐、网络关系分析、信息传播、影响力分析等,利用微博用户兴趣模型提供的精准化广告投放逐渐成长为一种主要盈利模式。微博用户兴趣建模方法的研究,对微博网站提高用户满意度,实现盈利和发展有很大的作用。2012年孙威《微博用户兴趣挖掘与建模研究》和2013年1月仇均《基于微博社会网络的用户兴趣模型研究》都对微博用户兴趣建模提出了自己的方法,但是侧重点不同,前者是在对体现微博用户兴趣信息的选取上重点研究,而后者的主要研究在于微博社会网络的构成方面。本文的出发点与以上二者又有不同,将微博文本的预处理作为侧重点进行研究。本文的研究内容包含两个部分:微博文本预处理和微博用户兴趣建模。其主要的研究内容和取得的成果如下:①停用词过滤方法研究:在中文文本处理过程中,停用词过滤是必不可少的环节,停用词过滤的准确性直接影响到了后续对于文本分析、内容抽取和相关性等的研究效果。本文根据停用词的特点,提出了基于上下文关系的停用词定义,并且通过分析停用词在词性方面的特征以及微博中文本的特点,提出了一种针对微博文本预处理的停用词过滤规则,可有效去除微博文本中的停用词。该方法处理快速、简单有效,为后续研究基于微博文本的用户兴趣建模提供了有效支撑。②新词发现方法研究:微博是一些新词、网络词汇的快速源产地,研究显示,60%的分词错误都是由新词导致的,而分词错误又会导致后续用户兴趣建模的不准确性,因此对微博文本进行新词发现方法的研究是提高用户兴趣挖掘的有效方法。本文从新词的构成方式着手,提出基于相邻词组的微博新词定义,并且根据微博文本的特点,对微博中“@”和“#”两种特殊符号所带来的特殊文本进行识别,并利用多元扩展的方法对候选新词集进行完善。③微博用户兴趣表示方法研究:根据微博文本信息,即个性标签、原创微博、转发微博、评论微博四类文本信息构成初始用户兴趣信息,而微博文本是属于短文本范畴,存在着数据稀疏性和碎片化问题,为了尽量克服这个问题的影响,提出结合概念的向量空间模型,并从短文本扩展角度,利用《同义词词林》构建概念词表进行概念映射对向量进行扩展,构成微博用户兴趣模型,很好反应了用户细粒度的兴趣。
其他文献
目的 探究个性化护理对慢性支气管炎患者生活质量的影响。方法 选取2016年7月~2018年7月来我院进行治疗的慢性支气管炎患者74例作为研究对象,采用随机数字表法将其分为实验组
石墨是一种性能优异的无机非金属材料,是我国战略性新兴产业发展的重点产业之一。我国石墨资源丰富、分布广,品位差异大,国内石墨深加工产业主要分布于东部地区,具备产业规模
目的探讨在中老年人慢性牙周炎种植体治疗之后应用自我护理模式干预的效果。方法对照组患者均采取常规护理,观察组患者则在该基础上采取自我护理模式。结果两组患者的PLI、PD
<正>"海军的强大是促进某些国家进入强国行列的诸因素之一。历史证明,如果没有强大的海上军事力量,任何国家都不能长期成为强国。"——苏联海军元帅戈尔什科夫
目前,病证结合动物模型已经成为中医科研动物模型研究中的热点,与之相关的文献报道也越来越多。笔者通过阅读相关文献,结合参加过的课题研究,拟对现行病证结合动物模型制作的两种
克利夫兰级轻巡洋舰是美国海军第一种打破条约限制设计建造的轻巡洋舰.是美国海军二战中产量最多的轻巡洋舰(包括部分舰体改造成航空母舰).也是二战中后期美国海军轻巡洋舰主
阐述ESA教学模式的内涵和分类,基于两位教师的同课异构课,对比分析ESA模式的不同组合设计对学习效果和核心素养的影响,并通过对授课教师的半结构式访谈,指出教师是教材预设和