论文部分内容阅读
随着互联网带宽的优化,网络传输、视频压缩等技术的创新,视频已成为互联网最为重要的应用之一,是互联网流量主要贡献者。互联网视频访问模型不仅是视频分发缓存策略与系统设计实现的重要依据,也是内容推荐与营销的基础。因此,分析互联网视频用户观看行为具有重要的应用价值。 本文基于互联网视频提供商PPTV、华数TV用户访问日志,分别从访问方式对用户行为的影响、视频流行度特征、语义级别用户兴趣三个方面分析视频用户行为特征。论文的主要工作与贡献如下: 1)比较分析不同访问方式下用户观看行为的差异,并提出基于访问方式感知的缓存设计方案。内容提供商通常为用户提供三种访问方式:网页浏览器(Web),PC客户端(Client),移动客户端(Mobile)。通过对PPTV大约2600万条访问日志的分析,发现Web平台下流行内容相比其他两个平台更集中。而移动客户端用户兴趣的地域相似性更高。另外,独立用户行为也呈现不同的分布,例如移动用户对长视频的观看完成率很少达到50%。最后提出基于访问方式感知的缓存方案,利用PPTV日志数据进行实验仿真,缓存命中率平均提高3-4%,缓存替换操作次数平均降低超过40%。 2)刻画视频流行度随时间演变的模式特征,分析其影响因素。通过对PPTV视频流行度长期的分析,发现不同访问方式下视频流行度呈现不同的演变趋势:Web接入方式下的视频流行度趋势变化较慢并且动态变化较为平缓。同时,视频流行度演变趋势也依赖于视频的内容类型,例如娱乐视频在发布初期往往会获得较高的流行度,而电影电视剧需要更长的时间。另外,在Web浏览器和Mobile客户端平台中视频早期观看来源与流行度演变模式有很大的相关性。这些发现为视频流行度的预测、视频推荐提供了依据。 3)挖掘用户语义级别的兴趣特征,提出基于语义兴趣的用户分类方法。通过分析华数TV长达六个月的用户访问日志,挖掘大规模视频集中隐含的语义特征。针对视频名称无法全面体现其主题的问题,为视频集增加语义描述文档,利用LDA主题模型提取视频集隐含的语义相关性,计算用户语义兴趣特征,提出基于语义兴趣的用户分类方法,并用华数TV的数据集验证了分类的可行性以及准确性。