论文部分内容阅读
随着计算机、互联网和移动通讯的普及,特别是云计算、Web2.0、移动互联网等新型信息化技术的发展和应用,Web服务的开发、部署、管理、访问及维护成本均大幅度降低,海量服务应运而生。同时,伴随着用户与服务之间,用户与用户之间,服务与服务之间所产生的交互数据也在井喷式增长。仅以Google API服务为例,每天的用户调用纪录达100亿次以上。可以肯定的是,服务计算的大数据时代已经到来。在服务大数据的时代,如何有效地利用与服务相关联的多源异构数据,实现面向大规模复杂服务高效和准确的服务发现,是学术界和工业界共同关注的研究热点。传统的服务计算研究具有规模较小、数据单一、环境静态等局限性,无法应对大服务数据环境下“海量规模”、“多元关系”和“跨界环境”等特性对复杂服务发现提出的挑战。本文围绕大规模复杂服务发现中的四大关键问题,即服务搜索,服务推荐,服务选择和服务管理展开研究。具体来说,主要工作与贡献包括如下:(1)针对在海量服务环境下传统搜索引擎查全率低效等问题,提出一种融合标签信息分布式服务搜索方法。针对服务标签数据具有的分布不均、模糊性、随意性、甚至恶意性等特点,通过提出结合语义相关性的标签推荐技术来解决标签数据分布不均的问题,为标签较少的服务推荐合适的标签;通过提出文本稀疏降维技术,自动过滤掉与服务相关性低的标签,解决标签数据恶意性等问题。同时,我们发布了公共服务标签数据集并通过真实世界的数据验证了本文提出的融合标签信息的分布式服务搜索方法的有效性。(2)针对在多元服务环境下传统推荐系统准确度不高等问题,提出一种结合元数据的个性化服务推荐方法。在分析了当前服务推荐系统推荐效果个性化不足的问题基础上,提出结合用户地理位置元信息来提高服务推荐体验效果;通过分析QoS数据集,针对QoS的调用特性,提出时序平滑处理策略以降低数据重要性分布不均的影响;提出结合用户元信息的二阶段最近邻域搜索策略和基于地理位置信息的正则项,从而提高服务个性化推荐的准确性;提出混合服务质量预测以降低数据稀疏性对预测准确性的影响。同时,提出自适应随机梯度下降法来提升推荐系统的运行时效性。最后,通过一系列基于真实世界时序服务数据的实验,验证了本文提出的结合元数据的个性化服务推荐方法的有效性。(3)针对复杂跨界网络环境下的服务质量数据严重缺失等问题,提出一种基于协同过滤的快速服务选择方法。针对QoS数据标准差过大的特点,提出使用EPCC方法来计算服务之间的相似度,从而消除其对服务质量预测的影响;提出混合Kmeans聚类方法优化目标用户的搜索空间,从而提高服务质量预测的精度;提出基于动态规划的字典学习法来加速服务选择的效率。最后,通过一系列基于真实数据的实验,证明了本文提出的基于协同过滤的快速服务选择方法的准确性,特别是在数据稀疏的情况下满足用户大部分需求。(4)针对当前业界在海量服务环境下并没有统一的管理系统设计框架等问题,提出一种面向服务发现的管理系统构建方法。针对邻域的设计特点,提出三种测度函数从不同层面计算最近邻邻居相似性;提出四种协同策略来筛选最近邻域对目标用户的作用;针对目前服务质量管理系统普遍存在效率慢的特点,提出了三种求解策略提升系统的效率。最后,结合目前服务学界最大型的服务质量数据集来验证本文分布式服务质量管理系统构建方法的有效性;通过定量实验的因子加减法,我们总结了设计分布式服务质量管理系统的关键技术点,并开放了三项技术接口供业界架构师扩展到自己的业务逻辑中。