论文部分内容阅读
随着Web2.0技术和电子商务的快速发展,网络里的数据量呈爆炸式增长,这导致了网络中出现严重的信息超载问题,用户需要付出相当大的代价才能从信息数据的海洋里检索到自己感兴趣的资源。为了降低这种代价,出现了基于社会标签的推荐技术。社会标签是用户在标注资源时自主选择的关键词或词语,社会标签不仅能够帮助用户更好地组织、管理自己感兴趣的资源信息,而且还可以根据用户使用的标签信息发现用户的兴趣偏好向用户推荐满足其兴趣偏好的资源。那么在此背景下,如何准确有效地向用户推荐标签,以及根据用户的标签记录信息发现用户的兴趣偏好并向其推荐资源就成为当前研究的重要方向。当前的主流标签推荐方法有很多,但是在推荐过程中对用户、资源和标签三元素之间的关联关系普遍考虑不足,而数据仓库提供的多维数据集正好可以很好地体现三元素之间的关联关系,所以本文研究如何将数据仓库技术应用到标签推荐中并准确高效的向用户推荐标签;但同时由于数据仓库中三元素间的语义关系不能得到很好的体现,所以本文还提出了基于加权元组潜在语义分析的社会标签推荐模型。以下是本文的主要工作:1.针对标签推荐过程中用户、资源和标签之间关联关系考虑不足的问题,给出了基于数据仓库技术的社会标签推荐模型。该模型中采用了数据仓库的多维数据集技术,构建标签的多维数据集,建立数据挖掘模型,利用它的底层多维数据模型、OLAP分析功能对数据进行处理分析,并使用数据仓库的Microsoft关联规则技术挖掘多维标签数据集中的规则实现社会标签推荐,从而通过使用数据仓库技术有效解决在推荐过程中对用户、资源和标签三者之间的关联关系考虑不足而导致推荐精确性不高的问题。2.针对使用数据仓库技术进行标签推荐时不能很好的体现出用户、资源和标签之间语义关系的问题,给出一种基于加权元组潜在语义分析的标签推荐模型。该模型引入社会网络的结构化分析方法对标签元组进行量化加权,以构建加权的三维张量结构模型,并对生成的三维张量结构模型进行高维奇异值分解,然后通过元组的潜在语义分析,得到能体现用户兴趣度的加权元组集,产生推荐结果集,从而解决因用户、资源和标签之间的语义关系考虑不足导致的推荐结果精确性和有效性低的问题。通过来自典型大众标注网站Delicious中的用户标注数据集,验证基于数据仓库技术的社会标签推荐模型和基于加权元组潜在语义分析的社会标签推荐模型,均能够取得较好的推荐效果。