面向视频网站的自感知通用爬虫系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：Chinaxfhl

【摘要】

：

随着计算机技术的高速发展和互联网的广泛普及,互联网上信息量爆发式激增甚至过载,过载的信息量提高了用户的信息筛选难度,视频网站便是其中典型的例子。随着视频网站越来越

【作者】

：

黄国锴

【出处】

：

北京邮电大学

【发表日期】

：

2016年01期

【关键词】

：

互联网视频爬虫系统通用抽取自感知

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的高速发展和互联网的广泛普及,互联网上信息量爆发式激增甚至过载,过载的信息量提高了用户的信息筛选难度,视频网站便是其中典型的例子。随着视频网站越来越多,视频版权制度越来越完善,大多数视频网站无法购买到所有视频的播放授权,而这也同时给互联网用户提出了难题,互联网用户常常无法在同一家视频网站看到自己想看的所有视频内容。于是面向视频网站的内容聚合需求便应运而生。面向视频网站的内容聚合需要爬虫系统为其提供最基本的数据支持。本文针对爬虫系统遇到的视频网站改版导致爬虫失效、爬虫失效后不能及时感知、以及对失效的爬虫进行修复时可读性差和维护成本高等问题,通过对目前国内主流的视频网站的共性和特点进行分析,设计和实现了面向视频网站的自感知通用爬虫系统。第一,针对视频网站设计了深度定制的XML模板标签语言,以表达各家网站视频业务的抽取逻辑,并实现了相应的模板解释器以对XML抽取模板进行解释执行;第二,基于Scrapy爬虫系统,在爬虫系统的各个环节插入数据收集逻辑;第三,在爬虫系统执行完成对本次爬虫系统产生的中间数据和入库的数据进行统计和分析,通过数据的统计分析,得出爬虫系统的数据规律,在一定程度上感知爬虫系统是否存在失效。此外,本文还实现了失效地址的探测子系统,通过模拟视频内容请求流程,来扫描数据库中的哪些视频信息属于无法播放的失效视频,并进行标记。最后,本文对上述设计和实现进行了实验,得出了视频抓取量的变化规律,验证了爬虫系统模板化通用抽取的可用性,以及数据统计分析和异常感知在一定程度上的有效性。

其他文献

三维网络SiC陶瓷/高铬铸铁复合材料性能研究

三维网络结构陶瓷/金属复合材料已得到越来越多的重视,其中三维网络碳化硅陶瓷/铸铁复合材料以其优异的耐磨损性能在耐磨材料中得到广泛的应用。然而,碳化硅与铁在高温下发生

学位

三维网络复合材料铁涂层界面力学性能结构组织

剖析市区“行路难”、“停车难”问题

最近,省市城市科学研究会举行了"城市交通"沙龙,10多位来自规划、城建、公安、交通、房地产的专家和市老领导,针对杭州主城区日益严重的"行路难"、"停车难"问题,从"三分建设,

期刊

城市交通管理杭州市公共交通停车库人行道

组织印象管理视角下的财务欺诈识别研究

大数据时代下中国金融证券市场蓬勃发展,随之而来的财务欺诈问题也越来越受到投资者和监管者的重视。上市公司的财务欺诈行为使得投资者蒙受巨大损失,扰乱了经济秩序,引发了信任危机,危害极大。因此,构建一个有效的上市公司财务欺诈识别模型意义重大。尽管财务欺诈识别研究随着机器学习方法的引入取得了巨大突破,但作为研究财务欺诈识别问题的重要环节,非财务特征研究仍存在体系不完善、缺乏量化标准等问题。因此,理论指导对

学位

财务欺诈识别机器学习组织印象管理社交行为

杭州网上技术市场发展现状、问题及工作重点

一、网上技术市场的成果和作用自2002年6月中国浙江网上技术市场启动后,杭州市场陆续推出2900余项企业技术难题招标和科技招标项目,提供25亿元以上的研发资金,上网企业达到92

期刊

企业技术网上技术市场中国杭州市场网上市场科技招标项目签约难题高校科研院所

面向视频网站的自感知通用爬虫系统的设计与实现

其他学术论文