面向AJAX脚本网络的网页爬行及解析技术的研究与实现

被引量 : 4次 | 上传用户:zhangtie123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,具有AJAX异步传输特征的动态网站已经逐渐成为互联网中的主流表现形式。该技术虽然实现了与服务器的异步通信,带来了良好的用户体验,但是却改变了基于静态页面的传统Web站点的架构。这导致传统网络爬虫无法获取动态站点中的所有页面信息,隐藏在服务器端的很多数据内容无法被获取并进行进一步的分析与利用,造成了资源的浪费。通过上述现状,本文首先分析了AJAX技术的工作原理与主要特点,以及网页分析的核心技术,构建了动态网页数据获取的模型。在此基础上,提出了一种基于动态脚本分析的网页爬行及解析的方法。该方法首先通过对动态页面结构与内容的解析完成了识别第三方框架、分类相似站点、确定页面事件标签集合、页面表单的自动填写等工作。利用Watij模拟用户操作并通过内嵌Selenium脚本解析器顺序执行相应脚本程序。采用广度优先的页面爬行策略、XMLHttpRequest对象监听和DOM树结构相似性判断相结合的页面状态判定方式、基于状态转换图的状态转换控制方法实现了动态页面的数据获取。通过路径存储仓库和本地缓存的加入,有效地减少了页面重新加载次数且较好地处理了服务器端的主动数据更新。基于该方法的工作原理和处理流程,本文设计并实现了一个用于获取动态网页数据信息的原型系统。实验表明,本文提出的算法能够有效地对动态网页进行解析并获取其中的数据信息。对算法做出的优化,使得该算法在不影响数据获取准确率的情况下,执行时间大大降低,性能较同类型其他算法有显著提升。本文所实现的动态网页数据获取原型系统AjaxCrawler可以应用于实际网络中的各个大型站点,能够基本满足用户对于动态网页数据信息获取的需求。
其他文献
在当下高校进行学科建设的背景下,学术创新及科研立校成为高校发展的重要战略。在这一时代命题下,高校教师的科研发展成为重要议题,因为科研立校最终要落实在教师的科研发展
目的探讨大黄游离蒽醌对重症急性胰腺炎(sever acute pancreatitis,SAP)致大鼠肝损伤的保护作用。方法将雄性SD大鼠54只,随机分为假手术组(A组)、SAP模型组(B组)和SAP模型+大
笔者以电网企业运营监测工作为研究对象,围绕异动和问题管理闭环,定义了异动和问题的判断标准,梳理了问题分级的评价维度,建立了问题分级的量化模型,并明确了问题分级结果的
目的基于中医传承辅助平台软件,分析中国期刊全文数据库(cnki)中以中医药治疗焦虑症的组方用药规律,为进一步挖掘中医药治疗焦虑症及新药研发提供参考。应用中医传承辅助平台
本文对企业价值增长的可持续性这一理论进行了相关论述和计算。目的不仅是为了让读者了解企业价值及其可持续性仍有待于进一步地深入和跟进,还要让读者知道如何通过模型对企
经典的民族志与人类学的传统密不可分,目前,民族志作为一种研究方法正被越来越多地应用于工商管理世界。人类学民族志与工商管理民族志的主要区别在于对研究对象的选择。人类
近年来,失范信息行为越来越受到学术界、教育界和社会的广泛关注。大学生是民族复兴的希望和未来,是国家兴旺与发达的栋梁之才,是社会进步与发展的宝贵人力资源,加强对大学生失范
目的研究不同基质,磨破种皮,不同浓度赤霉素,磨破种皮后用不同浓度赤霉素处理以及不同浓度盐溶液处理对灰毡毛忍冬种子萌发的影响,以期找出灰毡毛忍冬种子萌发的最佳基质和破
一、韩信的家庭出身及其早时表现史言韩信“为布依时,贫无行,不得推择为吏,又不能治生商贾,常从人寄食饮,人多厌之者。”[1]这自然是对韩信成年后的叙述,至于信的家境究竟是从他生下来
期刊
<正>1930年,历史学家劳干从北京大学历史系毕业,进入中央研究院史语所工作,傅斯年一直是他的上司。在此后的岁月中,他与著名历史学家陈寅恪有过多年的交往,他经常向陈寅恪请