论文部分内容阅读
近年来,国内外多个大规模图书数字化计划进展顺利,在大规模数字图书馆环境下的个性化技术研究已成为一个重要的研究方向。作者参与了“高等学校中英文图书数字化国际合作计划(CADAL)”的建设,主要负责研发CADAL百万册图书服务平台,为服务平台实现了图书推荐与搜索应用。本文工作围绕个性化技术研究及其在百万册图书上的应用而展开。针对推荐系统,研究了针对单维度评分以及多维度评分的协同过滤技术:但是在百万册图书服务平台服务过程中,发现读者很少为图书打分,导致基于评分的推荐系统不能够正常工作;为此研发了基于图书点击日志挖掘的图书实时推荐系统,并在个人空间中提供了基于自定义多媒体规则的个性化推荐系统。针对图书搜索,注重设计用户友好的人机交互界面。研究成果如下:(1)提出了针对单维度评分推荐系统的吸收随机行走模型:将单维度评分数据转换成为二部图,引入和每个用户或物品节点相连接的空节点,在增强二部图上运用高斯随机场进行建模,将top-N推荐问题建模成基于图的半监督分类问题,在考虑每个节点的度的情况下推导出一种有效的吸收随机行走模型。在两种真实数据集上的实验结果证明了该吸收随机行走模型的有效性。(2)提出了针对多维度评分推荐系统的两种概率隐含语义分析模型:扩展了著名的单维度评分概率隐含语义分析模型(pLSA),在保留pLSA引入的隐含变量的情况下,采用了两种不同的多元概率分布来建模每个用户的多维度评分。在Yahoo! Movies真实评分数据上的实验结果表明了两种多维度评分概率隐含语义分析模型在预测和推荐任务中的表现显著好于单维度pLSA以及其它对比方法。(3)研发了基于可伸缩紧凑浏览模式树的图书实时推荐系统:提出了红黑头节点树索引的紧凑浏览模式树,该数据结构使用前缀共享树来增量式处理新日志,使用红黑头节点树来显著地提高系统可伸缩性;提出了可伸缩紧凑浏览模式树的构建算法,以及基于该浏览模式树的分治式实时推荐算法。在CADAL服务平台的图书点击日志上的实验结果表明了该方法的有效性和高可伸缩性。(4)研发了百万册服务平台中的图书搜索服务和个性化空间:实现了交互界面友好的多资源库图书统一并行检索系统;研发了支持查询扩展和探索式浏览的图书章节检索系统;为个性化空间开发了基于自定义多媒体规则的个性化推荐系统,读者可以设置图书、图像和书法字三种多媒体规则,系统按照内容相似度以及从日志或用户反馈中挖掘出来的群体阅读倾向,主动推送合适的数字内容。