论文部分内容阅读
互联网技术的迅速发展导致了信息过载问题。面对信息过载问题,虽然有相关应用如检索系统和搜索引擎可以帮助人们更精确的找到所需要的信息。在某些应用领域,比如电影、音乐、购物以及交友平台等,用户一般不能很好的提出很好的检索需求,在某些情况下,由用户自己提出来的搜索关键字获得的结果对于用户而言可能是无价值的。推荐系统的产生解决了如上的问题,它通过研究用户的历史记录、用户的社会化信息以及对应分类数据的属性信息,将用户的信息建模或者分类数据资源建模,通过某种可信赖方式的方式将用户潜在感兴趣的数据资源推荐给用户。这些推荐系统都能在某种程度上提高用户寻找特定信息的效率,而且有助于特定内容信息的有效传播。但这些推荐系统存在的共同问题就是,如何让推荐的结果更好,推荐的效率更高,用户的满意度更高。由此需要一个通用的工具对这些推荐算法进行评价,让算法的提供者能更好的获得算法的反馈结果,更好的取修正自己的算法,让他们能够对异构数据的输入以及采样有一个相对通用的接口可以使用。本文提出一种设计方案,实现一个推荐系统综合仿真平台的评估框架,能够模拟算法提供的各种输入数据集输入,并且对这些数据集进行统一的管理与存储,并且对其进行数据加工,对于不同的算法实现热插拔,算法可以遵守对应的规整进行不同的配置,来使用之前系统所统一管理的数据集,从而进行离线实验,再根据获得的反馈结果进行结果评估,让算法提供者对于算法能够有更好的改进。本文着眼于推荐系统综合仿真平台评估框架中数据集的统一管理、统一收集,多样化的数据采样,数据交叉验证方式、数据可视化、数据特征展示以及推荐结果评估,对于算法的具体实现以及推荐结果返回,并不是本文讨论的重点,本文将以一种简单的例子表示用户可自由配置的算法执行体。本文的思路:首先对推荐系统的发展现状进行了总结,研究了构建一个推荐系统综合仿真平台需要使用到的相关技术,讨论了常用的数据处理技术,聚类算法,数据可视化以及分布式存储等技术。然后讨论了评估框架的具体需求,其次根据这些需求分别针对框架中数据实体容器,数据特征展示工具以及仿真评估模块的设计,选择采用django这种MVC框架来作为用户交互界面,最后实现这种多样化数据输入的综合仿真评估平台。