服务爬虫引擎中服务识别与抓取功能的设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:zhaofeng130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web服务的松耦合架构及其开发便捷性使得它的应用范围越来越广‘,越来越多的企业和个人热衷于开发新的Web服务并将其放在网络上,如何对这些Web服务进行识别成为Web服务研究中的一个重要的问题,这也就是本文重点研究的问题。目前Web服务可以分为以下两大类:传统的结构化WSDL式Web服务以及非结构化RESTful式Web服务。针对WSDL式的Web服务,目前已有比较成熟的识别方法,但是针对RESTful式的Web服务,国内外仍没有比较成熟可用的识别方法。本文正是在这样一种背景下设计了一个针对Web服务的专用分布式爬虫引擎,此爬虫引擎能够高效的识别并抓取WSDL服务以及RESTful服务。本文首先研究了针对Web服务的专用分布式爬虫引擎中涉及到的相关理论知识及相关技术知识,确定了本文的技术路线;然后从Web服务的专用分布式爬虫引擎的需求出发,分析了此爬虫引擎的重点功能性需求及非功能性需求;随后重点针对RESTful式服务的识别提出了一种基于改进的朴素贝叶斯分类思想的识别算法,并对此算法的可行性及合理性进行了理论分析及具体实验,实验结果表明此算法对于RESTful式服务的识别能够达到很好的召回率及准确率,能够满足我们服务识别的需求;紧接着提出了我们的Web服务的专用分布式爬虫引擎的框架的总体架构,并针对框架中的关键模块间的交互及关键模块内部的交互做了详细说明,随后针对关键模块的设计细节进行了详细叙述;然后设计完成了原型系统,并针对此系统进行了系统测试,测试结果表明此原型系统能够满足我们的需求;论文的最后对整个论文的工作做了总结并对下一步工作的内容进行了分析展望。
其他文献
随着云计算、大数据和web服务的发展,数据中心中出现了一类轻量级的可扩展负载。传统高性能服务器对这类负载的适配性不好,主要体现在服务器计算密度低,资源利用率不高以及可扩
随着通信网络和计算机网络的发展,网络融合是下一代网络发展的必然趋势。VoIP (Voice over IP)是在P网络上传送具有一定服务质量的语音的业务,是近几年内发展起来的一种新的
近年来,信息技术的普及和硬件技术的快速发展,为大数据产生与存储提供了先决条件。在商业上、科研机构、政府部门等都存储着大量的数据。而如何从这些大量的数据集中提取有用
随着互联网的不断发展,个人和小型团队开发者如雨后春笋般不断涌现出来,应用数目呈现高速增长趋势,传统自给自足的研发方式难以满足需求。平台即服务(PaaS)为应用程序提供基础运
焊接是机械工业化社会中一门重要的工艺,为保证焊接质量,需要进行缺陷检测。焊接缺陷若在钢管的内部,则需要采用无损检测的方式,较常用的就是X射线获取。早期主要是靠人工来
数字集成电路在制造过程中受到制造工艺、技术以及外围环境等因素的影响,可能会导致芯片中存在缺陷。在芯片上市之前,必须找出这些存在缺陷的芯片。但随着芯片规模及复杂度的不
该文提出了一个在Client/Server环境下,基于现有的OLTP系统来分析、设计实现OLAP系统的整体解决方案,意在花费最小的代价,通过对OLTP系统的功能进行有效的扩充来加速企业OLAP
随着移动通信和互联网的不断发展,电信运营商一方面需要满足人们日益增长的业务需求,另一方面需要抵抗互联网对于传统增值业务的冲击,这就要求电信运营商推出更加丰富多彩的
网络虚拟化技术作为解决当前网络僵化问题的新兴技术,获得了众多研究机构的广泛关注。本文在此背景下,重点关注网络虚拟化环境下的资源分配问题。资源分配是网络虚拟化环境下
近年来,VoIP应用得到了越来越广泛的应用,越来越多的企业和个人选择网络电话来进行实时通信。随着互联网中联网主机的数目日渐增加,很多主机都会处于NAT之后,网络地址转换技