论文部分内容阅读
伴随着互联网时代的飞速前进,我们的周围充斥着信息量巨大的网络信息,而这些信息也在生活中扮演着日趋重要的角色。尤其是在电子商务领域,人们每天都要进行购物消费,产生了大量的产品信息和评论信息。如果能够从海量的文字信息中获取有价值的内容,就可以极大地提升消费者的购物体验,促进商品成交率。这非但是在学术领域,而且也在商业应用方面掀起了一股研究的热潮。推荐系统通过探索用户在过去发生的行为数据,以及这些行为和产品自身属性之间的相关性,实现模型的建立,达到用已发生的行为来预测未来行为的目的。简单地说,在实际应用中,就是通过推荐用户可能出现兴趣点的各类产品,来实现业务量的增长。以往的推荐系统主要将重心放在基于内容的推荐方法上,将其他产品和用户曾经购买或选择过的产品进行属性特征的对比,若相似程度较高则予以推荐。本文在此基础上,不仅考虑了产品本身的描述属性,又综合考虑了评分和评论等信息,提高了推荐的准确率。本文首先需要利用网络爬虫对产品信息进行采集,并将采集到的评论文本进行分词等预处理工作,经过预处理后的词语就构成了一个词典集合。由于特征词数量庞大,本文运用了改进的LDA主题模型进行特征提取,结合TF-IDF计算,综合选取不同粒度下的特征,挖掘主题信息,计算出文本在各个主题上的概率分布和权重。最后,本文结合用户兴趣模型,使用sigmoid函数,改善冷启动环境下产品相似度计算时从属性特征到评论特征的过渡,采用欧几里得距离公式对各文本之间的相似度进行计算,将相似度较高的产品作为推荐列表输出并进行推荐。本文将亚马逊中文网站上的图书信息作为实验数据进行实验分析,本文在实验的过程中还讨论了当主题数量发生变化时,对于文本在主题上的概率分布的影响。另外,本文对选取不同特征项以及采用不同特征提取方法的推荐性能指标进行了评价,主要包括准确率、召回率以及F-Measure指标。在对实验结果分别观察后可以看出,与传统的推荐方法相比较而言,本文选用的方法在考虑了评论文本信息并改进后,推荐效果更为准确。