论文部分内容阅读
知识社区是互联网时代人们进行资源获取和学习的重要场所。它以其开放性、快捷性吸引着越来越多人们的关注,对于很多科研学者,知识社区甚至成为他们与外界交流与沟通的主要方式。随着知识社区用户间的交流,知识社区中的资源呈几何数级增长,人们在学习的过程中,要想从这些大量的资源中找到自己感兴趣的资源变得越来越困难,于是资源推荐便成为学者们研究的重点。目前大多数推荐方法仅从简单字面匹配或者词频角度给予用户推荐,没有充分考虑到资源内部的语义信息,而语义分析方法可以充分挖掘资源中潜在的信息,从而充分反映资源所要表达的内容和含义。因此,如何结合资源的语义信息给予用户推荐是知识社区资源共享研究应该考虑的问题之一。为此,本文尝试采用LDA主题模型和用户分类本体两种语义分析方法分别给出两种知识社区的资源推荐方法,以期从不同角度提高资源推荐结果的评估指标。文章的主要内容分为以下两个部分:第一部分,基于本体与LDA主题模型的知识社区文本资源推荐方法研究。LDA主题模型将文本资源表示为某种概率的主题分布以及相应主题的词分布,因此,与基于TF-IDF词频统计的推荐相比,基于LDA主题模型的推荐可以获取文本资源内的语义信息,有效地解决一词多义、异形同义等问题。但由于该模型假设主题之间是相互独立、互不影响的,这就使得推荐的结果总是局限在同一主题的范围内,进而限制了推荐的惊喜度。所以本文将本体引入到基于LDA主题模型的文本资源推荐中,通过本体扩展LDA模型的主题得到关联主题,然后考虑关联主题在文本中的分布概率,结合加权后的关联主题给予用户最终的推荐。最后在CiteULike网站提供的数据集上进行实验验证,实验结果表明,引入本体后,基于LDA主题模型的推荐惊喜度有了明显的提高。第二部分,基于用户分类本体的协同过滤知识社区视频资源推荐方法研究。目前使用最广泛的个性化推荐方法就是协同过滤方法,该方法中最重要的一步就是相似性计算,但是随着用户数目剧增就造成在相似性计算过程中算法的执行效率过低的问题。为了解决该问题,本文提出一种基于用户分类本体的协同过滤推荐方法。该方法首先构建用户分类本体,然后根据本体中概念间的语义关系获取分类规则,利用分类规则对庞大的用户群进行分类。在保证一定的推荐准确度前提下,为用户寻找局部近邻用户,并以局部近邻用户为基准完成资源推荐。最后在MovieLens公开数据集上进行实验验证,并且分别通过F1与平均绝对误差两个指标进行用户分类与推荐精度评估,在用户分类准确及推荐精度良好的前提下,用时间复杂度衡量算法效率。实验结果表明,引入用户分类本体的协同过滤推荐减少了近邻用户识别的计算量,同时提高了算法效率。