又见爬虫

来源 :南风窗 | 被引量 : 0次 | 上传用户：xinxin3690

【摘要】

：

烂尾的新闻很多，本不值得惊奇。年初的拼多多，热点一个赛似一个，但到最后，仍是草草收场了。　　这也难怪，现今的社交媒体，称呼围观的人“吃瓜群众”。瓜吃饱了，仅剩一点瓜皮，自然是要扔掉的。具体到拼多多的事件，剩下的这点瓜皮，应是尚未落定的“爬虫”事件。　　但这点瓜皮，尚还有味，弃之可惜。　　对事件大致复盘：因拼多多一名员工的疑似猝死，“996”受到声讨。众人正酣时，一名拼多多员工自曝，只因为拍了一张救

【作者】

：

向治霖

【出处】

：

南风窗

【发表日期】

：

2021年4期

【关键词】

：

爬虫数据员工瓜皮信息公司

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　如是，理解爬虫的原理就简单了。设计者需要做的，是为爬虫制定规则，爬取特定的属性/标签下的数据。
　　Python是近年流行的编程语言，以它为例，可以了解爬虫的工作原理：
　　假设，张三在知乎注册账户，用户名叫“张三”。现在，我们要爬取他的所有动态信息。第一步，我们需要找到的，是张三评论所在的网址（url）。
　　得到了对应网址，下一步调用模块request.get（），字面意义是：向服务器发起请求、获取该网址的数据。那么，张三评论的所有数据，就都在其中了。
　　此时，我们想要的评论，依然藏在一堆庞杂的字符中。所以，在接下来，我们需要确定数据的性质，如用户名是张三（name =‘ zhangsan’），将这一属性的数据筛选出来。
　　所谓爬虫的规则，即是经过层层筛选，最终得到目标信息。这还没完。　　上述的步骤，只是自动化地获取、筛选了数据，但没有罗列出来。当数据量极大时，一条一条罗列数据，显然并不现实。因此，爬虫的设计者，还要制定一定的规则，将数据按规则打印。如，列出张三的评论内容、评论时间、评论网址……
　　如此操作完，会自动生成一个数据表格（格式可能不同），爬虫的工作就结束了。在这张表格中，张三评论的所有信息，一望可知。
　　正因如此，拼多多1月11日的回复中，那张表格尤其可疑。表格中罗列了四条“极端言论”，且信息的属性完整，分别是用户名、ID、内容、时间、网址。更增加了嫌疑的是，“属性”用英文写成：username＼ID＼comment＼time＼url，这是符合编程规范的。
　　对此，拼多多官方没有回应质疑。
　　但在1月11日，据媒体报道，拼多多相关人员回复，否认信息是通过爬虫获取，并解释道，“是公司多人通过公开的网页浏览，搜索、比对发帖账户ID发现的”。
　　这一解释并非不可能。但如前文所述，仅凭一串标识字符（ID），人工地浏览海量数据，并且追溯了三个月内的信息，再一个一个列表出来，工作量是庞大的。
　　当然，不能排除拼多多日以继夜地“996”式搜查，且“公司多人”指的是很多很多很多人。
　　无论如何，质疑与辩解的双方，都没有拿出证据来。究竟是何种获取方式，现今只能各凭各据。

协议

　　鸡毛撒了一地后，有不少网友揶揄，最大的“受害者”是脉脉。这一次事件，暴露了匿名社区的不可靠。如前文所说，无论是爬虫技术，或者是人海战术，都可以破解脉脉的匿名机制。
　　罪魁祸首在于，ID这一标识性极强的属性，在脉脉的网页中居然“明文显示”—对匿名社区来说，这是不可思议的。
　　此处的“明文”，对普通用户不成立。这是因为，即使外显了ID，普通用户也无法据此搜索。但对有一定网页设计知识的人来说，只需打开“查看网页源代码”，所有数据都在眼前，而ID就成为可追查的“锚”。
　　是的，在大多数网站上，用户的行为全被记录下来。对具备一定技术的人来说，用户们都是“透明人”。

是的，在大多数网站上，用户的行为全被记录下来。对具备一定技术的人来说，用户们都是“透明人”。

　　通俗的解释是，普通用户每一次的点击链接，是一次对服务器的请求（request），而每一次网页的呈现，是服务器对请求作出的回应（response）。这一切对技术人员来说，全部有迹可循。如果有心，通过对请求的分析，就可以获知请求者的身份、设备、IP地址等信息。
　　不过，人工查找费时费力，在有了爬虫代劳后，性质也就不同了。数据可以批量地、有规则地获取，且过程自动化，所占的不过是存儲而已。
　　恶意爬虫的存在，显然是对信息/数据安全的威胁。包括脉脉在内，大多数网站上，都设计有“机器人协议”，其中规定了，哪些信息不允许爬取（disallow），哪些信息允许爬取（allow）。
　　打开脉脉的“机器人协议”，规定不许爬取的内容共18项，其后的允许项目，分别是对“360”和“haosou”公司的爬虫开放。—搜索引擎本身是爬虫，将爬取到的数据存入服务器，以供用户的搜索之用。因此，对搜索引擎开放爬虫协议，是为了获取关注度，这无可非议。
　　那就是说，在原则上，除了360和haosou，其它爬虫无权爬取脉脉数据。但在现实生活中，这个原则几乎等于不存在。
　　原因有两方面。一是技术层面，网址虽然拒绝爬虫，但爬虫的设计者可以伪装，将爬虫行为模拟为人类的行为，比如伪造“请求头”（request header），设计访问次数、时间间隔等。
　　二是法律方面，事实上，“机器人协议”没有强制力。司法实践中，截至目前，没有因违反“机器人协议”而入罪的案例。主流的观点认为，它是一种技术协议，而非法律认可的规范。
　　也因此，机器人协议被戏称“君子协议”。但很显然，一个行业如果靠道德自律，“君子”是远远不够用的。

其他文献

国际公约推动中国深入反腐

2005年12月14日，《联合国反腐公约》在中国正式生效，中国反腐走上国际合作轨道，用国内、国际两个“轮子”推动深入反腐。　　国务院总理温家宝在提请审议批准公约的议案中说，批准这一公约“有利于我国开展国际合作，遣返外逃腐败犯罪人员，追缴被非法转移国外的资产，有利于我国建立健全教育、制度、监督并重的腐败预防与惩治体系。”　　国务院经审核认为，公约作为旨在预防和打击腐败、加强国际合作、促进跨国流动的腐

期刊

公约中国腐败中国政府国际法联合国

全力打造中国绿色信息工程

为倡导良好网络道德，响应中央“文明办网，文明土网”的要求，在国务院新闻办、国家信息产业部、违法和不良信息举报中心等部门支持下，人民网、新华同、央视国际等国家重点新闻网站联合举行“文明办网，文明上网——电信运营商在行动”系列专题，重点报道我国主要电信运营商在防范网上不良信息、才丁击非法网上服务、创建健康和谐网络环境等方面所采取的措施，以进一步推进网络文明新风，构建和谐社会。为此，本刊专访了中国网通集

期刊

中国网通网络国家信息产业部信息安全环境电信运营商

风险社会中的存活法则

《非对称风险：风险共担，应对现实世界中的不确定性》　　随着全球化的加深，“风险”就成了热门议题，频繁现身于庙堂江湖。金融市场是最在意风险的行业之一，浸淫多年的塔勒布躬身自省，揭示了现代性风险最重要的面向：非对称性。非对称风险是由我们常说的“信息不对称”引起的：交易中的一方比另一方掌握的信息更多，拥有信息优势的一方就有可能出现欺诈行为。还有一类常见的非对称风险，是由权力和责任的不对称引起的。典型的就

期刊

风险自己的西语国家本书不对称

“自动驾驶”的风口

近日蔚来汽车和特斯拉的自动驾驶功能接连受到质疑，让公众对待自动驾驶的态度变得更为谨慎了。据不完全统计，2021年年初至今，中国自动驾驶及智能汽车行业半年时间至少已完成49起融资事件，创近十年来同期新高。自动驾驶投融资事件在近十年来有430起，披露的融资金额近2601.2亿元。　　目前，实现自动驾驶主要有两条技术路线，一条是科技巨头路线，以谷歌、百度等互联网企业为主要代表，通过开发软件算法，搭建自动

期刊

中国特斯拉路线级别融资数据

在曲折中壮大成长

新中国的成立凝聚着老一辈革命家的艰苦奋斗和不懈努力，今天的幸福生活来之不易，我们要继承和发扬革命光荣传统，为实现中华民族的伟大复兴而不懈奋斗。　　　　历史告诉我们：党在几十年的发展过程中并不是一帆风顺的，历经艰难与奋斗、失败与探索，才走出了一条光明正确的道路，造就了伟大光荣的党。　　历史让我们知道：无数的革命先烈抛头颅、洒热血，把自己的青春和生命奉献给了人类最伟大的事业——为争取中华民族的独立和自

期刊

会议中央委员会陈独秀土地革命中国共产党中央

银行去年依然是赢家

疫情“黑天鹅”冲击全球经济，产业链、供应链重构，去年，不少行业、企业的成绩单并不好看。如餐饮和旅游行业，不少企业都曾一度迎来生死存亡的至暗时刻。　　硬币的另一面是，疫情期间，全球央行接力“放水”，货币环境很宽松。　　3月底，国有六大行的2020年报均已发布，据国行投研室数据，6家银行的总资产约为124万亿，净利润为1.14万亿，分别占全部商业银行的46.57%与58.70%，换句话说，六大国有行以

期刊

亿元银行大行建行工行息差

中国医疗器械市场结构逐渐优化

近五年来，中国医疗器械市场规模一直保持稳步增长。数据显示，中国医疗器械整体市场规模已由2014年的2556亿元增长至2018年的5304亿元，年均增速保持在20%左右，营业收入及净利润均保持高速增长态势，属于医疗器械行业发展黄金期，预计到2022年中国医疗器械市场规模将超过9000亿元。　　但相较于全球医疗器械市场，近三年中国医疗器械市场的结构已趋向优化但结构依然严重不平衡。早期中国医疗器械市场中

期刊

医疗器械中国市场规模亿元市场国医

崇高的宗旨　神圣的使命

军队的宗旨和使命，既是军队的象征，更是军队本质的展示。军队与宗旨共生，军队与使命同在。人民军队将一如既往地坚持崇高宗旨，履行神圣使命。　　中国共产党领导的中国人民解放军，已经走过了79周年的光辉历程，这支伟人的人民军队，在夺取政权和保卫政权的斗争中，一往无前，所向无敌，从胜利走向更人的胜利；在建设军队和巩固国防的进程中，快速发展，不断壮大，已成为保卫中华人民共和国的钢铁长城，维护世界和平的重要力量

期刊

人民军队军队使命战略宗旨国家

右转的塞浦路斯，难回统一轨道

塞浦路斯瓦罗沙街景，1974年前的希腊文招牌依旧可辨　　1月11日，联合国塞浦路斯问题特使简·霍尔·卢特访问了塞浦路斯，分别同南北两侧的领导人举行了会谈，这是继去年12月以来第二次类似的会晤。从会后南北两侧分别举行的新闻发布会看，“联邦方案”与“两国方案”之间的根本分歧，依旧难以调和。　　塞浦路斯面积不到1万平方公里，人口不过100余万，却长期忍受着南北分治的苦恼。在左右该岛命运的周边国家希腊与土

期刊

塞浦路斯土耳其希腊塔塔方案联合国

班宇和《逍遥游》

作家班宇　　在南方的湿热里想象北方的冰雪，到底是有些困难。但班宇书中那些湿漉漉的场景，海边、泳池、明渠，却也为凛冽的东北增添了一点水润。　　班宇的第一本小说集《冬泳》在2019年意外“出圈”，因为易烊千玺在社交网站上的分享，引起粉丝纷纷购买。不仅出圈，《冬泳》亦获得了主流文学界的肯定—班宇获第17届华语文学传媒盛典“年度最具潜力新人”、智族GQ年度新锐作家等奖项。　　2019年，也一度刮起“东北文

期刊

明渠小说山脉工人这篇污水

又见爬虫

协 议

其他学术论文

协议