网络爬虫技术的理性思考及多元规制方法

来源 :计算机时代 | 被引量 : 0次 | 上传用户：flypoet

【摘要】

：

【作者】

：

李凤霞李晨曦

【出处】

：

计算机时代

【发表日期】

：

2021年10期

【关键词】

：

大数据网络爬虫数据爬取行为多元规制方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：大数据时代，恶意爬取数据的现象屡见不鲜。这使得网络爬虫行为的规制问题更具研究意义。然而，当前学界对爬虫技术的应用存在一定的认知偏差，并过于夸大了法律规范的社会效果。对此，文章期望通过加强有关法律的体系整合、明确相关监管机构的权限划分、健全国家级数据中心群与数据共享网络、以及加强数据行业协商性“立法”的多元规制方法，促进数据产业的健康发展。
　　关键词：大数据; 网络爬虫; 数据爬取行为; 多元规制方法
　　中图分类号：DF626 文献标识码：A 文章编号：1006-8228（2021）10-11-04
　　Rational thinking and multiple regulation approaches of Web crawler technology
　　Li Fengxia， Li Chenxi
　　（China University of Petroleum， Qingdao， Shandong 266000， China）
　　Abstract： In the era of big data， malicious crawling of data is common. This makes the regulation of web crawler behavior more meaningful. However， there are some cognitive biases to the application of crawler technology in the current academic circles， and the social effect of legal norms is too exaggerated. Therefore， this paper expects to promote the healthy development of the data industry with the multiple regulation approaches which includes the strengthening the system integration of relevant laws， clarifying the division of authority of relevant regulatory agencies， building a national data center group and data sharing network， and strengthening the negotiated "legislation" in the data industry.
　　Key words： big data; Web crawler; data crawling behavior; multiple regulation approaches
　　0 引言
　　大数据时代的到来使得数据成为企业经营与发展的重要资源，在商业竞争与战略制定中起着愈发关键的作用。与此同时，利用网络爬虫技术恶意爬取数据的行为也屡见不鲜。恶意爬取数据的行为会很可能对网站服务器带来极大的负载容易导致企业服务器的损害，影响企业经营。更有甚者会严重泄漏被爬取企业的信息及商业秘密，极大的影响企业经济效益。
　　1 数据爬取行为的法律风险分析
　　网络爬虫技术在司法领域看来最可能存在法律风险的问题——不当获取数据后经过数据处理后又不当使用。仅仅在数据获取流程中有不法行为，只有在危及国家安全和严重侵害个人及企业利益时法律才会出动。这主要存在四种情况。①经营者非法获取涉及国家秘密的有关数据信息，这会构成危害国家安全罪有关的犯罪。②使用数据采集技术给对方的计算机系统造成破坏，譬如恶意爬虫可能会损坏服务器，倘若情节严重，将构成破坏计算机信息系统罪。③如果获取个人或企业的信息并给对方造成严重损失，构成侵犯公民个人信息罪或非法获取计算机信息系统数据罪。④如果非法获取的信息涉及商业秘密与知识产权，那么将可能构成侵犯商业秘密罪及知识产权方面的有关罪名。
　　当数据获取流程与数据应用流程中皆存在不正当性，且不正当行为具有关联性时，将会使应用网络爬虫技术的法律问题再度扩大。如汉涛公司诉百度公司案件中，由于百度在其旗下产品中使用了大众点评网的有关数据，违反商业道德以及市场秩序，最终被法院判定构成不正当竞争。就此案而言，百度公司的数据应用的不当性是法官事实认定的主要依据。而百度公司不当的数据获取行为——擅自利用网络爬虫技术获取大众点评网的有关数据，是百度公司进行违法行为的技术支持及前提。上述裁判逻辑让受侵害方能够以更低的成本获得有关的证据，也有利于法官在多种因果链条中选择最为接近案件事实的情况。既能维护被侵害方的合法权益，又能给社会释放正确的激励信号，法律便有理由在面对不当的数据获取行为时表现的更加积极。这也会激励经营者规范自己的行为，且注重检查数据收集行为的正当性与否。
　　2 当前网络爬虫技术的规制现状与存在的问题
　　关于网络爬虫技术问题的讨論，理论界主要结合现有案例来切入。从案件类型来看，主要为知识产权侵权、不正当竞争与刑事犯罪。李慧敏与孙家亮在其论文中的数据也证明了这一点：与网络爬虫技术相关的案件中，知识产权侵权案件数量为24件，占到总案件比例为75%;不正当竞争纠纷与刑事犯罪案件数据均为4件，其中构成刑事犯罪案件的罪名分别为，侵犯著作权罪、传播淫秽物品牟利罪、破坏计算机信息系统罪、非法获取计算机信息系统数据罪（截止于2018年8月8日）[1]。对此，有学者主张通过专门立法的举措来丰富我国现有的法律体系，以针对性的法律文件对网络爬虫技术进行法律规制。有学者将着力点放在现有的法律体系上，尤其是期望明晰网络爬虫行为的刑事违法性，通过刑事规制的手段对不法爬取数据行为进行充分的威慑[2]。无论是专门性的法律规制还是刑事规制，本质上都是通过法律的手段来引导网络爬虫技术使用者的行为。然而，以上规制方式均存在不足之处，以下探讨其四点不足之处。　　2.1 对于网络爬虫技术应用的相关认知存在一定的偏差
　　在對网络爬虫的违法性进行理论分析时，通常是以“robots协议”、“反爬虫措施”作为有关网络爬虫行为违法与否的衡量标准。“robots协议”如前文所述，是一份互联网行业的“道德”，并不会对爬取数据的行为产生技术上的约束。“反爬虫措施”是企业为保护自身数据不被爬取所采取的技术防御措施，能对爬取数据的行为产生技术上的约束。有的学者将违反“robots协议”的爬取数据行为、绕过或者破解“反爬虫措施”爬取数据的行为视为违法性的体现。然而这只是在理论上成立的条件。在法律实践中，网络爬虫的法律风险来源于技术使用者不当获取数据后又不当使用的系列行为。同时，“robots协议”不具备法律的约束力，也存在一些滥用现象。诸多数据企业出于商业竞争的考虑，对其所有的数据都不愿予以开放。这使得“robots协议”在现实中的保护领域过大，该协议本身的公正性有时也存在一定的质疑。另一方面，绕过或者破解“反爬虫措施”也并非是爬取数据的必要手段。爬取数据的行为与绕过或破解“反爬虫措施”单纯在技术角度上并无直接的关系。由此，将“robots协议”、“反爬虫措施”作为有关网络爬虫行为性质定性的评判依据的观点过于牵强。
　　2.2 忽视了该技术所处的行业背景
　　检视我国当前的互联网行业，企业间对数据开放问题基本持以排斥甚至拒绝的态度。从商业竞争的角度，倘若竞争者收集了与该企业相同的数据集，便有开发相同的产品，抢占该企业市场份额的可能性。同时，从技术的角度讲，企业自身所构建的数据集是无法满足精准大数据分析的要求，企业等数据应用者便会受此激励利用网络爬虫技术等外部数据收集技术去收集其他数据所有者不愿意开放的数据。这种现象是极为常见的，甚至俨然成为一种隐性的商业惯例，这似乎违背法学者的经验认知。但在事实上，诸多被法律工作者所知悉的爬取数据的有关案件并非是由单一的爬取数据行为所引起的。单纯依靠法律规制网络爬虫技术，难以解决当前诸多的非法获取数据问题。事实上，绝大多数爬取数据行为的“东窗事发”是由于该企业对所爬取数据的不当应用，即发生在数据应用环节。由此，对网络爬虫技术进行法学讨论时，应结合当前我国信息技术企业的真实的运行情况进行分析。
　　2.3 对法律的实施效果过于乐观
　　学者们公认的、目前中国法治建设中的最大难题，莫过于“有法不依、有令不行”。[3]现实中，法律的实施会受到一定条件的约束，良善的立法并非一定产生良好的法律效果。尤其在司法，数据权益侵害案件将会对司法机关的电子数据取证技术有着更高的要求。然而，目前中国从事电子数据取证工作的专业性人才数量较少，电子数据鉴定机构数量也较为不足。这也对电子数据取证人才的培养提出了更高的要求，导致专业性取证人才的培养更加困难。由此，以规制网络爬虫技术的法律文件在实践中极有可能面临相关执法人员、司法人员的缺失问题，进一步影响法律实施的效果。在司法实践中，倘若创设网络爬虫技术的专门性法律条款，容易出现诸多法条竞合的现象。如汉涛公司诉百度案中，最后的裁定结果是百度公司构成不正当竞争。以数据工程的角度来看，这是对百度公司在数据应用环节中的行为进行法律评价。倘若增设针对网络爬虫技术的罪名等法律条款，并予以适用，则是对百度公司在数据收集与数据应用的违法行为进行了重复评价。司法人员在认定时需要对爬取数据行为的针对性评价与数据应用行为的针对性评价进行选择，无疑提高了司法人员适用法律的难度。由此，对于司法人员来讲，网络爬虫技术的专门性法律条款的实用价值并不理想。更困难的一点，是无法建立相应的执法、检察、司法的监督机制。如果对爬取数据行为的法律适用问题进行监督，同当前电子数据取证的困境一样，中国缺少相应的专业性人才与鉴定机构，监督效果也不容乐观。
　　2.4 可能对社会产生不良激励
　　当前的互联网企业对数据信息皆有迫切的需求。多数企业面对随之而来的法律风险，通常是支付一定的费用，建立风险预防机制或风险规避机制，然后将成本转移给消费者。但不可否认，仍有部分企业面对创设针对性的法律以及扩大刑事规制范围的规制方法将会采取法律风险转移方式。即将数据收集这一高风险的环节外包出去，通过向其他企业组织及个人购买数据信息来满足自家企业数据工程的使用。这种需求将促使相应的数据收集产业的产生。然而，考虑到当前公开性数据的缺少，数据收集产业的组织及个人仍会对网络爬虫技术有着极大地需求。互联网公司同样会因为法律风险的降低做出进一步扩大其数据集的策略，这将激励数据收集产业更加的“繁荣”。在对网络爬虫技术有着极大限制的条件下，极有可能出现利用数据爬取、甚至数据库入侵等手段收集数据的违法性质的数据收集组织，甚至可能为此出现“违法数据清洗”的组织及个人。这种灰色产业链的出现会更进一步地危害个人及公共的数据安全。
　　2.5 对以后立法策略产生不当影响
　　中国目前并未创设网络爬虫技术的专门性法律条款。关于网络爬虫技术的规制问题，法学界似乎秉持了同一条原则——技术中立，强调不应对网络爬虫技术创制过分针对的法律规定，即不能对该技术有着法律性的歧视。但是“技术中立”是一项原则，并未确立明晰的标准范式，这使得学者们对该原则有不同的解读。创设针对性的法律以及扩大刑事规制范围的方式，是对网络爬虫技术进行针对性的规制。该种规制方法的确立且进行实施，将会成为技术中立原则在立法方法上的一个论据，用以论证创设针对性的法律的方法并非对该技术有着法律性的歧视，即不违背技术中立原则。由此，将会在制定立法策略时释放不利的激励信号，导致技术针对性的罪名增加。同时在司法实践方面容易出现与规制“数据应用环节”的罪名发生法律竞合、不利于体现法的可预测性等相关问题。
　　3 网络爬虫技术的多元规制路径
　　由于数据获取与数据应用环节具有外部性，即能产生外部影响，因而可能产生复杂的社会纠纷以至于需要法律出动。本文便以网络爬虫技术的外部性作为进行规制路径分析的切入点。具体来说，就需要讨论网络爬虫技术的活动空间。从技术应用空间的角度来看，网络爬虫技术是以网络空间的存在作为现实基础。这意味着网络爬虫技术的可规制性能与网络空间的可规制性进行连通。两者的连通点便是爬虫技术在网络空间中的应用行为。是以，在对网络爬虫技术的规制问题进行探讨时，应当考虑到网络空间的规制问题。从技术作用对象来看，网络爬虫技术获取对象—数据—在法学领域便涉及数据隐私等相关的机制设计问题。鉴于技术针对性立法这一规制方法对技术中立原则的破坏性，本文将以多元规制的方法对网络空间安全与数据主体安全进行技术规制进路的探究，以此激励爬虫技术的正当应用。　　3.1 加强相关法律的体系整合
　　中国目前并未创设网络爬虫技术的专门性法律条款。且根据前文的分析，创设针对性的法律极有可能违背技术中立原则，遏制爬虫技术对数据行业的积极作用及带来其他的负外部性。从控制社会成本与促进互联网行业良性发展的角度，厘清现有的网络法与数据保护相关法律的体系是更为合理的手段。
　　首先，应当通过完善破坏计算机信息系统罪、侵犯公民个人信息罪、非法获取计算机信息系统数据罪各自的权责确定对爬虫技术使用行为的刑事规制范围，避免刑罚权的不当扩张。并以此厘清法学意义上的恶意爬虫，为司法实践提供理论上的支持。
　　其次，通过完善并厘清反不正当竞争法与知识产权法对数据应用行为做到良好的法律监督，引导数据主体的数据使用行为合法、合理。最后，通过数据数据保护机制的设计与完善，对数据主体的整个数据工程行为做到引导与监督。
　　3.2 明确监管机构的权责划分
　　中国对于网络空间采取政府主导型的规制模式。其目的是为了实现对网络空间的统筹规划，增加国际竞争力。行政监管是实施网络管理的有效手段。公安部负责规制网络安全问题，网络新闻办则负责对网络内容进行管理，信息产业部规制互联网运营及接入，新闻出版署监管网络出版、知识产权等问题。[4]然而，当前的各级行政机关及有关部门存在职责划分不清这一问题，导致网络空间中的信息分布在具有固定职能范围的政府各部门和固定地域范围的各地区机构中。各个部门和地区各自收集、发布信息，信息只是在各自的管辖范围中使用，难以发挥信息综合利用的功效，难以发挥出其应有的“整体效应”。[5]由此造成各个机构部门运行效率较低浪费行政资源等问题，使得行政机关网络空间的监管效果不佳。对此，应当明确各个网络监管机构的职责权限，对具有重合或相似职能权限的机构可以进行适当的组织合并或权责再分，同时加强相关机构的组织协调并完善相应的监督机制，避免出现相互推诿或竞相负责的情况[6]。
　　3.3 建全国家级数据中心群与数据共享网络
　　1990年，美国在国家层面上建设数据中心群与数据共享网络，各国也相继开展相关的数据共享计划[7]。中国也开始重视国家级数据共享平台的建立。然而，我国政府数据开放平台的关联数据与元数据研究还处于发展阶段，数据描述过于简单，数据质量较低，严重限制了我国数据开放平台的发展。对此，应当确立一致的数据组织标准，使数据组织的格式趋于统一。同时，需要实现数据开放平台与数据获取用户的双向互动，即在做好用户反馈的前提下，还应建立数据用户向数据开放平台提供数据的及时渠道，并建立相应审核监督机制保证数据质量。此外，国内平台大多缺乏数据开放的授权协定，出于商业竞争或便于监管的角度，多数数据授权协定对数据获取用户有着各种数据使用上的限制[8]。因而，通过数据开放许可协议的支持从而保证用户在数据开放和使用上的自由仍亟待解决。
　　3.4 加强数据行业协商性“立法”
　　在司法实践中，违反机器人协议的行为可以作为辩护的论点甚至成为裁定书中的论据之一。然而，这是策略性的而非论证性的，中国并未在法律层面明确确认机器人协议的法律效力。出于没有法律效力以及存在滥用的原因，机器人协议在面对恶意爬取数据的行为时，显得极为尴尬。由此可以通过司法解释的方式赋予机器人协议法律效力，并规范其使用范围防止该协议的滥用。赋予机器人协议法律效力意味着行业协议的威慑力升级，同时也意味着与机器人协议衔接的行业规范也受到重视。博弈论中的重复博弈意味着有序的行业可以促进企业间的信任。数据受到恶意爬取时，被爬取方可通过向其他企业传播该信息的方式破坏恶意数据爬取方的行业信誉，中断与其他企业的未来交易。行業内部也会逐渐建立起一套违背行业规范的信息披露机制。在该种语境下，行业规范的救济优势也极为凸显。通过相互博弈，各企业将彼此沟通，通过完善行业规范的方式规制爬虫技术的使用行为。然而，这也容易发生行业垄断。由此，数据行业的协商性“立法”仍需受到权责明确的监管机构进行监督。
　　4 结束语
　　学界就网络爬虫技术的规制问题仍然是以相关立法研究为核心路径。但是面对实践中复杂的行为模式与行为主体，传统法律规范为核心的规制方式难以有效解决日益增长的数据侵权案件。对此，构建网络爬虫技术的多元规制模式，更能充分的保护数据主体的合法权益，有效遏制网络爬虫技术的恶意使用，促进我国信息产业健康、有序的发展。
　　参考文献（References）：
　　[1] 李慧敏孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权，2018.20（12）：58-67
　　[2] 刘艳红.网络爬虫行为的刑事规制研究——以侵犯公民个人信息犯罪为视角[J].政治与法律，2019.38（11）：16-29
　　[3] 桑本谦.理论法学的迷雾[M].法律出版社，2015.
　　[4] 钟瑛.我国互联网管理模式及其特征[J].南京邮电大学学报（社会科学版），2006.8（2）：31-35
　　[5] 刘霞向良云.网络政府建设中的问题探析[J].湖北大学学报（哲学社会科学版），2003.30（6）：20-23
　　[6] 黄志雄刘碧琦.英国互联网监管：模式、经验与启示[J].广西社会科学，2016.32（3）：101-108
　　[7] 邝瑜婷.政府数据开放下网络爬虫的法律规制[J].厦门特区党校学报，2019.31（6）：73-77
　　[8] 东方.国内外政府数据开放平台调查与分析[J].现代情报，2017.37（10）：93-98

其他文献

基于莱维飞行的改进简化粒子群算法

基于基本粒子群算法易陷入局部最优的不足,提出一种基于莱维飞行的改进简化粒子群算法LISPSO(An Improved and Simplified Particle Swarm Optimization algorithm based on Levy flight)。简化粒子群算法舍去更新公式中的速度项,仅由位置项控制其进化方向。在简化粒子群算法SPSO(Simplified Particle Swarm Optimization)的基础上,采用带有随机性的非线性递减惯性权重动态地更新每个粒子的位置。算法

期刊

莱维飞行简化粒子群相似度分析聚集度min-max-min

语音增强与检测的多任务学习方法研究

在许多语音信号处理的实际应用中,都要求系统能够低延迟地实时处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强和语音活动检测(Voice Activity Detection,VAD)的多任务深度学习模型。该模型通过引入长短时记忆(Long Short-Term Memory,LSTM)网络,构建了一个适合于实时在线处理的因果系统。基于语音增强和VAD的强相关性,该模型以硬参数共享的方式连接了两个任务的输出层,不仅减少了计算量,还通过多任务学习提高了任务的泛化能力。实验结果表明,相较

期刊

多任务学习深度学习语音增强语音活动检测

基于天空分割的单幅交通标志图像去雾算法

针对现有去雾算法应用于交通标志图像时容易产生信息丢失、色彩失真等问题,导致去雾后图像质量较低,不能很好地满足交通标志识别系统(TSRS)的实际应用需求,提出一种基于天空分割的单幅交通标志图像去雾算法。根据大津算法结合图像灰度特征得到自适应阈值实现天空区域和非天空区域的准确分割;非天空区域采取改进的暗通道先验算法去雾,引入自适应中值滤波和快速双边滤波联合的方法优化透射率,天空区域则采取直方图均衡化算

期刊

交通标志图像去雾天空分割暗通道先验直方图均衡化高斯滤波

自适应广义全变差的图像泊松去噪算法

针对医学、天文图像中的泊松噪声,基于广义全变差的图像泊松去噪模型,结合交替迭代极小化方法,提出一种自适应广义全变差的图像去噪算法。该算法利用广义交叉验证技术,使得模型中的正则化参数在算法迭代过程中可以自动更新。数值实验结果验证了该算法的有效性与可行性。

期刊

图像去噪泊松噪声广义交叉验证交替极小化

导向滤波的高光去除改进算法

为了解决传统的高光去除方法在去除图像高光时黑色像素点褪色、边缘和纹理缺失、产生伪影效应的问题,提出了一种导向滤波的高光去除改进算法。该算法通过设置第一阈值分离出图像中的黑色像素和其他像素,并采用不同方法分别估算黑色像素和其他像素的最大漫反射色度,避免黑色像素点发生褪色;利用导向滤波器对最大色度图进行了平滑处理,避免了伪影效应;在分离漫反射分量过程中,根据分母与第二阈值的关系,将滤波后图像中的像素点

期刊

高光去除导向滤波双色反射模型镜面反射漫反射

移动机器人实时采样路径重规划

针对传统采样规划算法因随机性强,在动态环境中重规划时路径质量差,抖动严重,实时优化效果不明显等问题,提出了一种利用反向生长最优快速搜索随机树的实时采样重规划算法DRT-RRT^*(Dynamic Real-Time RRT^*)。引入基于三角不等式的剪枝策略对路径进行平滑处理以减少路径拐点;提出了组合采样策略和局部终点跳动策略,将优化目标由全局路径聚焦于机器人当前位置至最近路径拐点的局部路径段,实时对执行路径段进行修正,进而提高路径质量的稳定性;在路径重规划时仅对受

期刊

移动机器人路径规划动态实时-快速搜索随机树^(*)(DRT-RRT^(*))组合采样实时重规划

自调优自适应遗传算法的WKNN特征选择方法

针对大多已有基于K近邻和遗传算法的特征选择方法中没有考虑各个特征的重要度不同,并且容易出现过早收敛,特别是局部最优解问题,提出了一种基于自调优自适应遗传算法的WKNN特征选择方法。该方法使用WKNN算法预测样本的类别,为每个特征分配一个权重来衡量特征的分类能力,然后采用自调优自适应遗传算法,对变异率、种群规模和收敛阈值进行参数调整,在迭代进化过程中搜索最优特征权重向量。为了评价该方法的有效性,与已有7种特征选择方法在5个标准数据集上进行了比较。实验结果表明,该方法是有效的,且具有较高的分类性能。

期刊

特征选择加权K近邻自调优自适应遗传算法参数调优实数编码

基于YOLOv5的违章建筑检测方法

针对无人机图像中违章建筑多为小目标且存在部分遮挡目标导致的检测速率慢、误检率高的问题,提出一种基于YOLOv5网络的违章建筑检测方法。在原来的批量标准化模块开始和结束处分别添加中心和缩放校准增强有效特征并形成更稳定的特征分布,加强网络模型的特征提取能力。用平滑处理后的KL(Kullback-Leibler)散度损失函数替换原损失函数置信度中的交叉熵,进一步提高模型的泛化性能。对YOLOv5的主干特

期刊

神经网络YOLOv5违章建筑检测批量标准化KL散度

基于无锚点机制与在线更新的目标跟踪算法

SiamRPN这种基于锚点机制的跟踪算法对目标尺度变化、剧烈形变以及旋转等问题鲁棒性不强,针对此问题提出了一种基于无锚点机制与在线更新的目标跟踪算法。提出了一种多层融合的特征提取网络,该网络能充分利用图像的结构与语义信息;采用了一种无锚点机制,使网络能够直接预测出目标区域内采样点到目标区域边界的值,有效避免了锚点机制的相关缺点;在主干网络的基础上添加了在线更新模块,利用最新的跟踪结果进行在线训练,

期刊

多层特征融合无锚点机制在线更新孪生神经网络

深度强化学习算法在智能军事决策中的应用

深度强化学习算法能够很好地实现离散化的决策行为,但是难以运用于高度复杂且行为连续的现代战场环境,同时多智能体环境下算法难以收敛。针对这些问题,提出了一种改进的深度确定策略梯度(DDPG)算法,该算法引入了基于优先级的经验重放技术和单训练模式,以提高算法收敛速度;同时算法中还设计了一种混合双噪声的探索策略,从而实现复杂且连续的军事决策控制行为。采用Unity开发了基于改进DDPG算法的智能军事决策仿真平台,搭建了蓝军步兵进攻红军军事基地的仿真环境,模拟多智能体的作战训练。实验结果显示,该算法能够驱动多作战智

期刊

深度强化学习深度Q网络深度确定策略梯度智能军事决策多智能体

网络爬虫技术的理性思考及多元规制方法

与本文相关的学术论文