论文部分内容阅读
随着互联网软件数量快速增长,大量相似功能的Web服务随之产生,由于越来越多缺少专业知识的新用户加入,使得服务发现工作变得越发困难。因此,一种新型的服务聚类与推荐算法以及领域知识发现方法的提出,显得十分重要。与传统服务推荐方法系统一样,首先要丰富用户对相关服务的应用领域知识,以增加用户输入的查询辅助词汇,同时解决冷启动的问题。用户了解服务的领域知识(本文中领域知识是指领域专家归纳的服务共性知识。),可以更好的选择和使用服务。所以领域知识利用率和用户需求的按需提取,对服务发现与服务推荐具有重要的意义。特别是知识网络的构建与热点知识的发现和利用,将有助于服务查询需求的获取与服务推荐。研究合适的知识网络构建技术和热点知识发掘技术,不仅可以弥补服务推荐时用户领域知识缺失所带来的服务推荐困难等问题,而且可以支撑已有的知识网络演化需求。另外,处理PWeb中无序和大量未经处理的文本描述数据集,也是一件相当繁琐的工作。从复杂网络模型结构角度对服务知识进行有序组织,可以提高服务发现与推荐的准确率。因此,开展面向知识的发掘与组织,能为互联网上服务精准推荐提供重要的理论与实际应用支持。本文研究内容主要包含如下3个创新点:(1)如何在用户领域知识缺乏的情况下,以演化网络为基础构建服务的领域知识。本研究,提出了一种自适应知识演化网络的富生长模型。基于互联网的服务和PWeb网站服务为对象,研究如何从自然语言描述的知识中获取服务知识并合并相似知识节点,构建的一个知识演化网络。研究如何通过演化网络节点的出度和入度计算知识节点的热度,以及从知识演化中热点服务的优先级排序来预测服务知识的发展规律,为服务推荐提供定量的依据。(2)如何在自然语言描述的服务文档中,利用相似词汇增强LDA聚类模型方法寻找功能相似的服务。本研究,提出了一种高质量相似词辅助的LDA聚类模型。该方法是基于Word Embedding的余弦相似度方法查找关键词的相似词,来辅助LDA对各领域服务进行聚类,从而提高服务聚类的精度。针对原有辅助词汇字典中隐含的大量噪声词,如何有效的筛选对聚类有益的词汇来提高聚类准确率的问题,提出一种基于Word2vec三层神经网络结合TF-IDF方法生成表征度阈值剔除噪声词的方法,并通过层次聚类自动寻找阈值,经过对真实PWeb网站10个领域聚类后的结果,我们发现剔除了噪声词后的高质量辅助词汇能有效提升服务聚类纯度。(3)如何从海量且无序的PWeb服务中发现符合用户个性化的服务,并进行按需推荐。本研究,提出了基于RGPS需求元模型与知识演化网络的个性化服务推荐方法。针对特定领域问题SDI(Specific Domain Issues)及相关的用户角色、目标、流程和服务四方面进行建模,并在课题组已有的RGPS需求元模型研究基础上,定义了RGPS元素间的关联关系网络。通过行为时序逻辑对各模型中的相关操作进行建模,并利用合理的逻辑顺序实现复杂的元素组织。设计了面向特定领域、RGPS按需服务组织方法,从不同角度、在不同层次上对相关服务进行了组织与管理。按不同的用户需求,设计了一种服务推荐算法,使用户能快速精准的查找到满足其需求的服务。本文在以上三方面创新研究的基础上,开发了实验实证工具系统,包括基于领域知识的服务获取与聚类分析工具,基于维基百科泛树的演化网络生成工具与知识丰富工具,并选择了PWeb网站的服务数据为实验载体。实验表明,本文研究通过RGPS元模型融合知识演化网络能有效的为用户查找服务和推荐服务。