多变量混合推荐算法的社交数据应用研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:libra_li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web2.0时代,一种融合线上虚拟社交与线下现实社交的活动型社交网络(简称EBSN)逐渐流行起来。在这类平台上用户可以与有相同爱好或关注点的其他线上用户建立社交关系;同时还能参加线上活动组织者们举办的线下现实活动,让线上社交关系在现实社会生活中得到实现。目前,活动型社交网络所举办的活动已发展至运动、艺术、教育、商务等多个领域,这种社交服务正在不断丰富着人们的社交生活。凭借着社交性、便利性和自主性等优点,活动型社交网络随着互联网与信息技术的成熟迅速积累了大量的用户,其活动项目数量也快速增长。但是,在业务快速发展的同时,用户可能由于面对过量信息而存在有效信息获取难度上升的问题,整个平台的信息使用效率和服务价值将很可能被拉低,“信息超载”问题愈加严重。因此,对于重视“用户体验”的活动型社交网络而言,如何帮助用户快速找到感兴趣的活动项目,提高信息使用效率,是目前与未来都亟待重点解决的问题。  个性化推荐技术作为应对信息超载问题的有效工具,是目前大多数的互联网平台的重点研究项目。对活动型社交网络而言,若能利用个性化推荐技术,通过挖掘用户偏好,准确地向用户提供活动推荐服务;那么,这项服务将不仅能够提升用户的信息使用效率以及线下活动的参与率;还能够加深平台对用户的认识,通过让用户享有更好的服务体验,提升用户黏着度。总之,对活动型社交网络而言,个性化推荐服务的应用应当蕴藏着丰厚的商业价值。  尽管历史研究已论证了社交活动推荐存在本质性冷启动和活动主题时变性问题,多变量混合推荐算法是比历史主流推荐算法更适用的技术。但是,历史研究者们在构建多变量时仍有许多重要信息未曾考虑,例如:时间间隔和活动组织者能力等信息;并且,许多变量的构造仍旧依赖于用户历史反馈信息和活动内容信息,冷启动问题和主题时变性问题未能更有效地解决。因此,本文将开展社交活动推荐研究,并将解释变量搭建与用户偏好建模预测问题作为研究重点,通过在用户偏好预测模型中引入更多有效信息弥补用户历史信息的缺失,从而克服冷启动问题和主题时变性问题,最终提升活动推荐的准确性和覆盖度。  本文以实现准确且覆盖广的社交活动个性化推荐作为主要研究目标,并且重点解决社交活动推荐存在的冷启动问题。为实现研究目标主要完成了以下三项研究工作:  (1)利用描述统计方法,详细论述了活动型社交网络的特点;  (2)从多个角度分析和抽取了可能影响用户偏好的信息,并且为用户偏好预测模型确定了解释变量构建思路与方法;  (3)借鉴K近邻的思想,构建了基于空间局部性特点的地理位置信息缺失值填充方法,并据此完成距离变量的构造。  为了验证研究思路与方法的效果,本文以Meetup网站为例,利用其业务数据进行数据探索与模型实证分析。根据实证工作的结果,总结了活动型社交网络特点,验证了基于社交局部性特点的地理位置信息填充方法有效性和多变量混合推荐算法推荐效果,得到了如下的研究结论:  (1)活动型社交网络平台的业务规律与特点总结  1)用户社交关系紧密,用户朋友数服从幂律分布  在活动社交平台上用户间较少为单方面关注关系,而多为互为朋友关系。用户朋友数服从幂律分布,大部分用户只会拥有一个相对小的社交圈。  2)用户的社交关系存在明显的空间局部性特点  用户与其朋友多生活在同一个国家,且位置距离在10公里内;此外,用户通过参加平台活动所结识的线下朋友比用户线上朋友在距离范围上更广。  3)平台组织的线下活动数量存在“周末效应”  活动组织者多选择在周五与周末三日举办活动,其余四个工作日的活动数量均较少,且随着周末临近,活动数呈现逐渐增加的趋势。  4)绝大多数活动组织者仅在一国开展活动组织工作  尽管Meetup向上百个国家提供社交活动服务,但绝大多数活动组织者主要在单个国家开展活动组织工作,在多国开展活动组织工作的组织者非常少。  5)用户与活动的交互存在明显的空间局部性特点  对活动进行交互响应的用户和组织者发出邀请的用户大多与活动举办地同处一个国家,并且用户均主要来自于活动举办地10公里的范围内;比较而言,受邀用户比交互用户的距离范围更广。  (2)多变量混合推荐算法能解决冷启动问题且有出色的预测效果。活动推荐的本质性冷启动问题制约了基于内容的推荐方法和协同过滤推荐方法的应用。同时,在活动型社交网络上所体现出的兴趣偏好还受到时间、位置、社交关系等诸多因素的影响,若单纯从用户历史偏好表达结果出发将忽略许多重要信息,未必能够把握用户真实偏好。因此,本文所采用的多变量混合推荐算法则是结合了传统推荐方法的思想与活动型社交网络特点的推荐方法,我们较完整地提取了与用户兴趣相关的信息作为解释变量,一方面能够更全面的把握用户与活动的关系,另一方面也降低由于历史偏好数据缺失而存在的冷启动限制问题,最终通过对每位用户偏好的预测向用户提供活动推荐服务。实证研究结果可知,本文采用的多变量混合推荐算法及在该算法下所构建的多维解释变量,不仅能够取得不错的推荐效果,还能够解决冷启动问题,为所有用户提供推荐服务。  (3)基于空间局部性特点的地理信息缺失值填充方法有效。本文基于 K近邻的思想和空间局部性特点,构造了地理信息缺失值填充方法,该填充方法分两步骤完成了缺失位置信息填充和距离信息构造。实证工作验证了该填充方法的有效性,由填充后数据生成的距离解释变量在模型中有较高的重要性,是个性化推荐的关键指标。尽管由于本文为离线建模,本文填充方法与经典中位数填充法之间没有产生较大差距的推荐优势,但是基于该方法不仅能够在很大程度上补充用户和活动的地理位置信息,并且真正实现了对用户位置信息的填充,在开展实时推荐研究时应当更能够体现其信息过滤应用价值。
其他文献
该论文主要讨论了北京市出租车营运行业ITS应用的必要性、可行性和应用中应该注意的问题.首先,论文简单阐述了出租车营运系统概念、构成和特点.其次,通过对北京市出租车营运
该文通过对中国中部地区的一个典型的农村工业集聚区——河南省巩义市回郭镇电线电缆工业园区的具体研究,从企业这一微观集聚主体出发,以外部经济为主要工具分析农村工业集聚
信用风险的评估对于银行和投资公司具有重要的理论意义和实际意义.论文系统地概括了国内外现有的信用风险评估方法以及它们的优点及局限性,并创造性地将集对分析(Set Pair An
马尔可夫过程拟平稳分布的研究是随机过程理论研究的一个重要部分,其在生物学、物理学以及化学等领域有广泛的应用,特别是在生命科学的相关研究中有重要应用.本文主要是研究带