论文部分内容阅读
面对社交媒体中快速更新的数据,帮助用户发现和组织有价值的内容已经成为了一项非常有意义的工作。本工作主要研究两个关键技术:(1)内容的标注:找到准确描述物品内容的标签,帮助用户理解内容并对物品进行组织。标签可以作为一个桥梁将网页、短文本、图片、视频等多种形式的内容联系到一起;(2)内容的排序:根据用户的个人偏好、时间、空间等因素对物品进行排序,帮助用户从海量的数据中快速找到感兴趣的内容。论文的主要研究工作和贡献包括:1.社交书签系统中的标签推荐:为了降低数据的稀疏性,本工作充分利用了三种新的关系来进行个性化标签推荐:用户的社交网络、标签的语义关联度、物品的内容相似性。本工作在异构图上拓展了监督式的随机游走模型,并通过求解最优化问题找到了点和边的最佳权重。实验结果表明我们的算法在使用相同的信息时要优于对比方法,并且能够通过融合新的关系来进一步提高推荐的准确率。2.微博短文本的主题标签推荐:主题标签是社交书签在微博文本上的延伸。首先,我们讨论了爆发式主题标签、个人主题标签、常用主题标签的特点以及内容相关、用户相关的推荐策略。然后我们提出了基于混合策略的主题标签推荐算法,帮助用户更加方便地使用主题标签。算法考虑了微博的特有格式、用户的标注习惯、主题标签的时效性等信息。实验结果表明我们的算法要优于已有的基于微博内容的算法和基于用户兴趣的算法。3.微博短文本的个性化排序:微博默认是按时间进行排序的,用户需要不断翻页浏览才能发现感兴趣的内容。我们根据用户的转发历史来对个人的偏好进行建模,将微博按照用户的感兴趣程度进行排序。算法充分考虑到了微博的内容质量、作者的权威度、用户兴趣和微博内容的一致性、用户对作者的关注度等信息。实验结果表明我们的方法要优于已有的方法,并且分析了各个因素的重要程度。4.微博事件的标注与排序:我们提出了一个实时的主题标签聚类算法,将事件表示为一组高质量的主题标签。为了帮助用户从大量的事件中快速发现有价值的信息,我们根据事件的流行程度、突发性、本地性对事件进行综合排序。为了帮助用户以不同的时间、空间粒度浏览事件,我们用时间、空间构成的数据立方体组织事件,并根据层次结构增量式地合并聚类结果。实验结果表明我们的方法能够提供高质量的聚类和排序结果,并且具有良好的可拓展性。