基于数据挖掘的网络用户行为分析

被引量 : 5次 | 上传用户:towon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网飞速发展,微博已成为信息交流和传播的一个重要的平台。数据挖掘技术是能够从大量的数据中自动搜索隐藏于其中的特殊关系。利用数据挖掘技术分析研究用户的行为特征,可以为企业和相关机构对微博的推广和监控提供理论基础。本文以中国主流的社交网站新浪微博作为研究对象,对新浪微博数据的采集和微博用户行为分析做了深入的研究。本文的具体工作主要包括:1.微博信息爬虫系统。本文实现了一个采集新浪微博信息的爬虫系统,爬虫系统解决了新浪微博用户数据和微博数据的获取和保存问题。2.异常用户行为分析。根据采集的用户数据,分析异常用户的行为模式。利用LDA主题模型对词化后的用户特征进行了降维,然后利用降维后的用户特征聚类异常用户。3.用户关注话题分析。本文利用爬虫系统获取的用户微博数据分析用户关注的话题。首先对用户微博分词和提取关键词,然后利用LDA主题模型降维,最后对用户进行聚类分析。
其他文献
近年来,黑龙江省以打造绿色食品为牵引大力发展水稻生产,在水稻栽培方面成就显著,但仍然存在栽培密度和化肥施用等方面的问题。如栽培密度不合理造成水稻大面积倒伏或群体量不够
【正】有许多伟大和优秀的儿童文学作家,不仅为各自国家的小读者,也为全人类的儿童文学画廊里,塑造了许多令人难忘的小主人公形象。其中,又以小女孩的形象居多。例如,在瑞士,
随着国家社会经济的发展,文化水平的提高,人们了解和参与国家政治越来越多,国家在对政治教育方面也越来越重视起来,随着新课改的提出和实施,传统的教育体系和教学策略已经无
中华传统文化绵延数千年并且发展出了多种多样的文化形式,在这个过程中出现的文化形式都带着独特的时代印记。传承中华传统文化独特的民族精神和注重人们道德培育与人格形成的
脑膜转移更常见于EGFR突变阳性的非小细胞肺癌患者[1],而其诊断依赖于头颅MRI或脑脊液找肿瘤细胞,但这两种方法均存在不足,且对进一步深入研究脑膜转移的耐药机理极其困难,为此广东
癫痫是神经科的常见病,有超过30%的患者经服用抗癫痫药物正规治疗,仍难以完全控制其发作,这其中的一部分患者属于难治性癫痫范畴[1]。我院1996年1月~1998年6月,对难治性癫痫18例在继续服用原一线抗癫
目的:通过成人腹腔镜腹股沟疝修补术(LIHR)和开放式腹股沟疝修补术的前瞻性随机临床研究,进一步明确腹腔镜治疗腹股沟疝的安全性及优越性。方法:将宜宾市第一人民医院普外科2012年
就目前来看,受各种因素影响,高职院校英语教学效率低下,并未达到教育部所提的要求。尽管教育部不断地针对教育发展形势制定文件、出台政策,也确实对高职英语教学改革起到了一定的
战国时代哲学家庄周在所著的《庄子·天下篇》中写道:“一尺之棰,日取其半,万世不竭”。三国时代数学家刘徽为计算圆周长而使用的割圆术:“……割之弥细,所失弥少。割之
索道桥由于造价低、架设快、维护方便等优点成为军事、临时性工程、峡谷地形等的常用桥梁,但是受其跨度不大、桥面线形不利于行车等缺点影响,索道桥并不是当今主流桥梁之一,