基于大数据的微博转发预测及热点发现算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wang____jiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网高速发展的中国,大多数网络用户开始逐渐使用新浪微博、QQ、微信朋友圈等社交网络平台进行交流,社交网络改变了人们以往的交往方式。社交网络中每时每刻都在产生大量的数据,仅仅是新浪微博每天就会产生超过一点五亿条数据。在这样海量数据的背景下,单机的处理能力无法满足对信息处理效率的要求,大数据技术因此顺势而生,传统的数据挖掘算法也需要进行改进并且并行化。本文对基于Hadoop的社交网络大数据进行了研究,首先通过爬虫对微博数据进行爬取,然后在分析微博用户的转发行为基础之上提出了相应的算法,对用户转发行为进行预测;同时采用改进后的K-means算法对数据进行聚类,从而实现热点话题的及时发现。本文通过实验的方式论证了算法的有效性。文章的主要研究内容包括以下几个方面:(1)设计了性能良好的微博数据爬取平台,重点分析微博登录验证与反爬虫系统,通过一系列巧妙的设计,采用多线程和优先队列的方式对用户信息及微博正文数据进行爬取,分析出需爬取的主要内容包括用户信息、用户关系信息、微博正文信息、微博转发信息,利用MySQL数据库结构化的方式对数据进行存储。(2)对微博上用户转发行为预测算法进行了设计与实现,为避免现有K近邻算法在大数据背景下效率低、时间成本高的问题,结合压缩近邻算法进行改进并提出了基于决策边界的压缩K近邻算法(CKNN)。并重点分析了改进后的算法在大数据平台上的设计与实现。同时将K近邻算法(KNN)、压缩近邻算法(CNN)作为对照算法在数据集上进行训练,验证了该算法的性能。(3)设计与实现了微博热点话题发现算法,重点分析了现有K-means算法的不足之处,利用粒子群优化算法对传统的K-means算法进行改进并提出了K-means-PSO算法,避免其受到初始聚类中心的影响,减少出现局部最优的情况,随后分析了改进后的算法在大数据平台上的设计与实现。将DBSCAN密度算法、K-means算法作为对照算法在数据集上进行训练,验证了该算法的性能。(4)对基于Hadoop平台的算法效果进行分析,并且通过数据表明大数据平台能够有效提升算法执行速度。本文提出的基于大数据的微博转发预测算法和热点话题发现算法,在理论上,对微博用户行为和网络舆情进行研究具有参考价值;在实践上,对用户行为预测算法和社交网络数据挖掘进行实现具有探索意义。
其他文献
乱弹是我国古老的戏曲剧种,也是珍贵的非物质文化遗产。古语云:"戏曲、戏曲,一边是戏,一边是曲",道出了音乐在戏曲中的重要作用。试通过对处州乱弹与浦江乱弹音乐的比较、分
<正>当看到这个题目的时候,您是不是会想起那首优美的蒙山沂水主题曲,是的,就是那首曾被多位著名歌唱家演唱过的经典红歌——《沂蒙山小调》。每当听到它,我总会想起那一个个
<正> 近年,笔者遵照“潜阳务先养阴,抑木务先滋水,平肝务先养血”的古训,秉枸杞地黄饮及一贯煎等方旨意,自立“滋肾养肝汤”治疗妇女更年期综合征60余例,疗效较为满意,现整理
随着三维测量技术与计算机技术的日益发展,使用自动化装置搭载三维测量设备对工业零件进行三维建模,再与CAD模型进行分析比较,完成对工业零件的自动化三维检测,已经成为工业
目的:本文以导师原晓风教授提倡的三焦辨证法治疗小儿过敏性紫癜为理论指导,结合导师学术思想和诊疗经验进行三焦辨治小儿过敏性紫癜的中医学术观点创新。通过对小儿过敏性紫
目的:经不同径路实现重组腺相关病毒在常用实验动物内耳的局部基因转染,得到较佳手术径路后,利用重组腺相关病毒作为载体实现X连锁的凋亡抑制蛋白(XIAP)在内耳的过表达,观察
目的研究电针刺激对更年期雌性大鼠垂体功能的影响及机制.方法应用放射免疫分析(Radioimmunoassay,RIA) 测实验各组大鼠血中雌二醇(estradiol,E2),卵泡刺激素(follicle stimu
中央政府对特别行政区行政长官的任免权属于中央监督权,与作为特别行政区高度自治权的选举或协商有机结合、紧密相连,二者具有政治与法律上的正当性与合理性,中央政府任免权必须
基于同步辐射X射线三维高精度原位成像技术,识别和统计出工艺稳定的激光复合焊接7020铝合金接头中的气孔数量、形貌、尺寸和空间分布特征,结合气孔统计数据结果和焊缝晶粒大
近几年来,临床门诊中经常出现鹅痛风病例,给养殖户造成了不少损失。鹅痛风病有内脏通风和关节痛风,常由于超量饲喂蛋白质饲料,尤其是动物性蛋白质饲料引起,也有慢性中毒和某些传染