论文部分内容阅读
社交媒体已发展成为空前庞大的互联网平台,亿万用户行为记录中蕴含着巨大的科学和市场价值。精确的行为预测和检测技术是推荐系统、个性化搜索和社会化营销等众多领域的核心,而用户行为分析与建模是预测与检测技术的基础,成为计算机科学新颖而重要的问题之一。行为分析与建模面临着行为数据的高稀疏度、海量动态、多元异构和意图复杂等挑战。传统的行为分析方法并未充分考虑用户行为的复杂特性,因此急需紧握复杂行为的潜在规律以提升行为模型的准确性。本文从用户行为的上下文关联性、跨域跨平台性和真伪性三大特性出发,采用数据挖掘技术,运用行为学、心理学等知识,分析行为规律,设计建模方法,并实现预测和检测技术。本文的主要贡献如下:1.提出基于社交上下文和时空上下文的采纳信息行为分析模型。为解决采纳信息行为的高稀疏性问题,本文融合兴趣偏好和影响力的社交上下文因素分析行为产生规律并建立模型Context MF。实验表明,融合模型显著好于单一因素模型。另一方面,结合行为的多面性和动态性特征,本文进一步提出基于时空上下文的进化分析方法FEMA。在大规模数据上的实验表明,该模型方法能显著提升行为预测的效果,证实增量数据处理的高效和可靠性。2.提出社交媒体跨域行为和跨平台行为的迁移学习算法。社交媒体用户的复杂需求只有在多域和多平台中才能得到满足。为解决单一域或单一平台的行为数据稀疏性以及冷启动问题,本文利用社交域桥接单一平台内的多个内容域,利用重合用户特征桥接多个社交媒体平台,迁移辅助域和辅助平台的行为信息,大幅提升了目标域和目标平台的预测效果。实验表明,跨域Hybrid RW算法和跨平台XPTrans算法在用户行为预测中具有优异表现。3.提出基于同步性和密集性的可疑行为分析方法和评价指标。欺诈、垃圾传播、“僵尸粉”关注等可疑行为严重威胁社交媒体安全、降低用户体验。本文抓住可疑行为的同步性和密集性特征,提出快速有效的分析方法Catch Sync和Lock Infer,成功检测出社交媒体中可疑行为、还原被扭曲的统计分布。该方法优于基于内容的传统方法,并能与之互为补充。本文进一步提出量化跨维度异常行为可疑程度的新颖概率测度指标,并给出快速检测算法Cross Spot检测高维真实社交媒体数据中的信息操纵行为。