Twitter数据采集与用户画像系统的设计与实现

来源 :苏州大学 | 被引量 : 2次 | 上传用户:tftaofeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,社交网络逐步成为人们沟通、娱乐的主要平台,社交网络数据也呈现爆炸式增长。相比于传统的计算机技术产生的数据,社交网络数据有着更加鲜明的特征:时效性强、规模庞大、类型丰富、传播速度快。然而社交网络数据也存在数据杂乱、价值密度低等问题。如何从海量社交网络数据中发掘有用的信息,全方位刻画社交网络用户成为当前亟待解决的问题。为了能够挖掘社交网络数据中有价值的信息,本文设计并实现了 Twitter数据采集与用户画像系统。该系统能够实时稳定地采集社交网络数据,挖掘用户的隐性属性和社会属性,全方位刻画社交网络用户。本文主要研究了基于社交网络的数据采集和用户画像技术,并进行了系统实现。具体来讲,本文的主要工作如下:(1)设计了基于网络爬虫和开发者API的数据采集技术方案,建立了安全稳定的数据采集技术体系,能够突破社交网站的反爬机制和权限认证,实现对社交网络数据的持续稳定采集,并通过多线程和异步的方式提高了数据采集效率。搭建了社交网络数据采集系统,允许自定义数据采集的方式和采集的数据类型,能够根据数据的类型来实现格式化存储,并提供了数据采集webservice接口供其它应用调用。(2)建立了社交网络人物画像模型,定义了人物描述规范,通过基础属性、隐性属性和社会属性来刻画社交网络用户,通过挖掘方法实现了对用户隐性属性和社会属性的准确描述。实现了用户画像系统,可以根据社交网络数据自动进行用户画像,并将画像结果格式化存储与输出。另外,虽然系统以Twitter为数据采集对象,但本文所采用的挖掘方法同样适用于其它社交网络数据(如微博、Facebook等)。(3)构建了典型人物样本库,样本库中的数据来自于已采集的社交网络数据,通过清洗、筛选和人工标注,使样本库中包含了各领域有代表性的人物。定义了人物画像模型的评价指标,根据典型人物的画像结果来评价人物画像模型的准确度。
其他文献
在杜威的教育理论中",经验"是最基本、最核心的概念。杜威本人也格外看重经验的价值与作用,他对于习惯的解释也非常独特,更重视习惯的理智性和主动性。杜威基于经验的习惯理
我国加入世贸组织以后,对外开放的行业和领域日益增多。我国农业企业经过几十年的发展,在我国对外贸易中占据着越来越重要的地位。本文通过分析我国农业企业在开拓国际市场方
<正>"法兰西的雄鹰——拿破仑文物(中国)巡回展览"3月12日在云南省博物馆开展。150余件(套)油画、雕塑、服装、生活用品等亮相昆明,展现了拿破仑跌宕起伏的戏剧人生,也再现了
社会生产力的发展推动着物流的发展,随着计算机技术、信息技术的飞速发展,社会对物流行业人才和技术的要求越来越高。对于即将步入这一行业的人员来说首先要对这个行业有所了
互联网已经全面覆盖我们的日常工作和生活。微电影作为一种新的电影传播形式发展迅速,随之而来的微电影广告也备受关注。微电影广告作为广告业态的一种新形式,发展势头不容小
石油化工行业的主要原料为石油和天然气,其大部分原料及附属产品的生产具有易燃、易爆、毒害性、强腐蚀性、高温、高压等特点,且各类危险性集于一身;一旦某个装置因故障、泄
在精准扶贫的政策背景下,纪录片《驻村扶贫记》讲述了一群来自高等学校的老师们前往云南宣威市羊场镇重点挂包的三个村落驻村扶贫的故事。他们在下村了解到当地贫困户的状况及致贫原因之后,与当地村委会一起开展了易地搬迁、产业扶贫等脱贫工程,帮助很多贫困户奔向了小康。而面对一些难以解决的问题,驻村队员也有着自己的苦衷和无奈。但扶贫队员们坚信,把希望的种子种在下一代身上,保证下一代不会重蹈覆辙才是脱贫的根本途径。
卫星星载原子钟是整个系统的核心部分,为此,建立精密卫星钟差模型,实现高精度的卫星钟差预报是非常重要的。本文基于超快星历卫星钟差产品进行分析与预报研究。主要内容如下:(
“马路之友”策划案如何在产品同质化市场上出奇制胜,这恐怕是不少企业大为头痛的问题,然而香港壳牌公司的“马路之友”策划的成功,为这难题作出一份漂亮的答卷,成为香港1997年度杰出
餐饮业在人们的社会和经济生活中扮演着越来越重要的角色,逐渐成为中国消费需求市场中增长幅度最高、发展速度最快的热点行业之一。中国餐饮行业巨大的市场前景吸引众多跨国品牌进入到中国,而为了适应中国市场环境,跨国品牌想要迅速进入目标市场,品牌本土化是一种必然选择。Thank u mom在韩国虽拥有一定知名度,但韩国整个炸鸡行业市场已经饱和,想要寻求进一步的发展,外部突围或许是个不错的选择。但中国餐饮市场复