基于领域知识的服务聚类与个性化推荐方法

来源 :武汉大学 | 被引量 : 1次 | 上传用户:massmass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网软件数量快速增长,大量相似功能的Web服务随之产生,由于越来越多缺少专业知识的新用户加入,使得服务发现工作变得越发困难。因此,一种新型的服务聚类与推荐算法以及领域知识发现方法的提出,显得十分重要。与传统服务推荐方法系统一样,首先要丰富用户对相关服务的应用领域知识,以增加用户输入的查询辅助词汇,同时解决冷启动的问题。用户了解服务的领域知识(本文中领域知识是指领域专家归纳的服务共性知识。),可以更好的选择和使用服务。所以领域知识利用率和用户需求的按需提取,对服务发现与服务推荐具有重要的意义。特别是知识网络的构建与热点知识的发现和利用,将有助于服务查询需求的获取与服务推荐。研究合适的知识网络构建技术和热点知识发掘技术,不仅可以弥补服务推荐时用户领域知识缺失所带来的服务推荐困难等问题,而且可以支撑已有的知识网络演化需求。另外,处理PWeb中无序和大量未经处理的文本描述数据集,也是一件相当繁琐的工作。从复杂网络模型结构角度对服务知识进行有序组织,可以提高服务发现与推荐的准确率。因此,开展面向知识的发掘与组织,能为互联网上服务精准推荐提供重要的理论与实际应用支持。本文研究内容主要包含如下3个创新点:(1)如何在用户领域知识缺乏的情况下,以演化网络为基础构建服务的领域知识。本研究,提出了一种自适应知识演化网络的富生长模型。基于互联网的服务和PWeb网站服务为对象,研究如何从自然语言描述的知识中获取服务知识并合并相似知识节点,构建的一个知识演化网络。研究如何通过演化网络节点的出度和入度计算知识节点的热度,以及从知识演化中热点服务的优先级排序来预测服务知识的发展规律,为服务推荐提供定量的依据。(2)如何在自然语言描述的服务文档中,利用相似词汇增强LDA聚类模型方法寻找功能相似的服务。本研究,提出了一种高质量相似词辅助的LDA聚类模型。该方法是基于Word Embedding的余弦相似度方法查找关键词的相似词,来辅助LDA对各领域服务进行聚类,从而提高服务聚类的精度。针对原有辅助词汇字典中隐含的大量噪声词,如何有效的筛选对聚类有益的词汇来提高聚类准确率的问题,提出一种基于Word2vec三层神经网络结合TF-IDF方法生成表征度阈值剔除噪声词的方法,并通过层次聚类自动寻找阈值,经过对真实PWeb网站10个领域聚类后的结果,我们发现剔除了噪声词后的高质量辅助词汇能有效提升服务聚类纯度。(3)如何从海量且无序的PWeb服务中发现符合用户个性化的服务,并进行按需推荐。本研究,提出了基于RGPS需求元模型与知识演化网络的个性化服务推荐方法。针对特定领域问题SDI(Specific Domain Issues)及相关的用户角色、目标、流程和服务四方面进行建模,并在课题组已有的RGPS需求元模型研究基础上,定义了RGPS元素间的关联关系网络。通过行为时序逻辑对各模型中的相关操作进行建模,并利用合理的逻辑顺序实现复杂的元素组织。设计了面向特定领域、RGPS按需服务组织方法,从不同角度、在不同层次上对相关服务进行了组织与管理。按不同的用户需求,设计了一种服务推荐算法,使用户能快速精准的查找到满足其需求的服务。本文在以上三方面创新研究的基础上,开发了实验实证工具系统,包括基于领域知识的服务获取与聚类分析工具,基于维基百科泛树的演化网络生成工具与知识丰富工具,并选择了PWeb网站的服务数据为实验载体。实验表明,本文研究通过RGPS元模型融合知识演化网络能有效的为用户查找服务和推荐服务。
其他文献
量子信息科学是将量子力学应用到计算机科学、信息科学和密码学等多个学科中而形成的交叉学科,它研究的主要内容是相对安全的量子信息输运和可靠的量子计算。量子信息在保密性和传输效率方面,相比于经典信息,具有后者无法比拟的优势。目前有很多可以实现量子信息输运的物理载体供选择,其中腔QED系统和光与物质的相互作用进行量子信息处理,无论在理论上还是实验上都得到了广泛的研究。因为原子和光子的寿命长,具有很好的抗退
青藏高原东南缘是物质迁移的重要通道,地震活动、构造活动和火山活动非常活跃,一直是地学研究的重点区域。为了探究青藏高原东南缘的地球动力学特征,更好地探索地震活动、构造活动和火山活动的机制,本文基于地震到时数据,利用体波层析成像技术反演得到该地区地壳上地幔速度结构。主要工作和成果如下:(1)利用云南省地震台网49个地震台站从2008年至2016年共9年的连续波形数据,依据国家地震台网数据共享中心公布的
目前在航空航天、民用等领域,1553B总线电缆依然十分常用且重要。但是1553B总线电缆的设计和生产测试验证标准非常复杂,不仅涉及到的参数种类多,还有异常严格的通过准则。并且在某些测试场景下仍需要依靠人工测量,且人工只能完成一些静态参数的测量,动态参数的测量需要另外搭建复杂的测试平台,测试过程复杂、测试场景固定、测试时间过长、效率低下。在这样的应用背景下,针对1553B总线电缆静态参数与动态参数相
本文利用2011—2015年全国流动人口动态监测调查数据,采用条件logit模型实证考察了空气污染对流动人口就业选址行为的影响。研究结果发现:第一,空气污染对于流动人口的就业选址具有显著的负向影响;城市的PM2.5浓度上升1μg/m3,流动人口到该城市就业的概率将显著下降0.39个百分点。第二,通过对比空气污染和收入对流动人口就业选址概率的影响可以计算得到流动人口对于PM2.5浓度降低1μg/m3
作为冰冻圈的重要组成部分,南极丰富的冰雪存储量及对气候重要的调节作用,使南极的冰川消融在未来具有更大的不确定性。研究全球气候变化背景下南极冰盖的响应及动态变化,对定量分析全球海平面变化及科学决策具有重要的指导意义。人类对南极的研究始于南极大陆的地理发现,但南极地区特殊的地理位置及极端的气候环境使得人类的探索举步维艰。直到空间对地观测技术的出现,才为人类探测南极冰盖及冰下大陆,认知其机理打开了新的局
动脉粥样硬化(atherosclerosis,AS)是冠心病和中风等心脑血管疾病的主要病理基础。动脉粥样硬化斑块的发展最终导致局部血液循环受阻,从而导致急性心肌梗死及脑梗塞等心脑血管疾病的发生。我国每年大约有300万患者死于此类病因。巨噬细胞在动脉粥样硬化的发展中起到至关重要的作用,炎症反应则与巨噬细胞浸润、泡沫化和凋亡的全过程密切相关。因此,研究巨噬细胞炎症反应的调控机制对于理解动脉粥样硬化发生
Cezanne(又称为OTUD7B)是属于OTU超家族,A20亚家族的去泛素化酶。作为NF-κB信号通路的抑制蛋白,Cezanne可以抑制NF-κB的激活和TNF受体信号介导的促炎转录。他也是第一个被发现可以特异性结合K11泛素链的去泛素化酶,可以调控细胞内包括天然免疫反应、细胞生存和肿瘤发生在内的多种信号通路。研究证明,当TNF受体(TNFR)被激活后,会在TNFR上形成一个复合体,此时Ceza