又见爬虫

来源 :南风窗 | 被引量 : 0次 | 上传用户:xinxin3690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  如是,理解爬虫的原理就简单了。设计者需要做的,是为爬虫制定规则,爬取特定的属性/标签下的数据。
  Python是近年流行的编程语言,以它为例,可以了解爬虫的工作原理:
  假设,张三在知乎注册账户,用户名叫“张三”。现在,我们要爬取他的所有动态信息。第一步,我们需要找到的,是张三评论所在的网址(url)。
  得到了对应网址,下一步调用模块request.get(),字面意义是:向服务器发起请求、获取该网址的数据。那么,张三评论的所有数据,就都在其中了。
  此时,我们想要的评论,依然藏在一堆庞杂的字符中。所以,在接下来,我们需要确定数据的性质,如用户名是张三(name =‘ zhangsan’),将这一属性的数据筛选出来。
  所谓爬虫的规则,即是经过层层筛选,最终得到目标信息。这还没完。   上述的步骤,只是自动化地获取、筛选了数据,但没有罗列出来。当数据量极大时,一条一条罗列数据,显然并不现实。因此,爬虫的设计者,还要制定一定的规则,将数据按规则打印。如,列出张三的评论内容、评论时间、评论网址……
  如此操作完,会自动生成一个数据表格(格式可能不同),爬虫的工作就结束了。在这张表格中,张三评论的所有信息,一望可知。
  正因如此,拼多多1月11日的回复中,那张表格尤其可疑。表格中罗列了四条“极端言论”,且信息的属性完整,分别是用户名、ID、内容、时间、网址。更增加了嫌疑的是,“属性”用英文写成:username\ID\comment\time\url,这是符合编程规范的。
  对此,拼多多官方没有回应质疑。
  但在1月11日,据媒体报道,拼多多相关人员回复,否认信息是通过爬虫获取,并解释道,“是公司多人通过公开的网页浏览,搜索、比对发帖账户ID发现的”。
  这一解释并非不可能。但如前文所述,仅凭一串标识字符(ID),人工地浏览海量数据,并且追溯了三个月内的信息,再一个一个列表出来,工作量是庞大的。
  当然,不能排除拼多多日以继夜地“996”式搜查,且“公司多人”指的是很多很多很多人。
  无论如何,质疑与辩解的双方,都没有拿出证据来。究竟是何种获取方式,现今只能各凭各据。

协 议


  鸡毛撒了一地后,有不少网友揶揄,最大的“受害者”是脉脉。这一次事件,暴露了匿名社区的不可靠。如前文所说,无论是爬虫技术,或者是人海战术,都可以破解脉脉的匿名机制。
  罪魁祸首在于,ID这一标识性极强的属性,在脉脉的网页中居然“明文显示”—对匿名社区来说,这是不可思议的。
  此处的“明文”,对普通用户不成立。这是因为,即使外显了ID,普通用户也无法据此搜索。但对有一定网页设计知识的人来说,只需打开“查看网页源代码”,所有数据都在眼前,而ID就成为可追查的“锚”。
  是的,在大多数网站上,用户的行为全被记录下来。对具备一定技术的人来说,用户们都是“透明人”。
是的,在大多数网站上,用户的行为全被记录下来。对具备一定技术的人来说,用户们都是“透明人”。

  通俗的解释是,普通用户每一次的点击链接,是一次对服务器的请求(request),而每一次网页的呈现,是服务器对请求作出的回应(response)。这一切对技术人员来说,全部有迹可循。如果有心,通过对请求的分析,就可以获知请求者的身份、设备、IP地址等信息。
  不过,人工查找费时费力,在有了爬虫代劳后,性质也就不同了。数据可以批量地、有规则地获取,且过程自动化,所占的不过是存儲而已。
  恶意爬虫的存在,显然是对信息/数据安全的威胁。包括脉脉在内,大多数网站上,都设计有“机器人协议”,其中规定了,哪些信息不允许爬取(disallow),哪些信息允许爬取(allow)。
  打开脉脉的“机器人协议”,规定不许爬取的内容共18项,其后的允许项目,分别是对“360”和“haosou”公司的爬虫开放。—搜索引擎本身是爬虫,将爬取到的数据存入服务器,以供用户的搜索之用。因此,对搜索引擎开放爬虫协议,是为了获取关注度,这无可非议。
  那就是说,在原则上,除了360和haosou,其它爬虫无权爬取脉脉数据。但在现实生活中,这个原则几乎等于不存在。
  原因有两方面。一是技术层面,网址虽然拒绝爬虫,但爬虫的设计者可以伪装,将爬虫行为模拟为人类的行为,比如伪造“请求头”(request header),设计访问次数、时间间隔等。
  二是法律方面,事实上,“机器人协议”没有强制力。司法实践中,截至目前,没有因违反“机器人协议”而入罪的案例。主流的观点认为,它是一种技术协议,而非法律认可的规范。
  也因此,机器人协议被戏称“君子协议”。但很显然,一个行业如果靠道德自律,“君子”是远远不够用的。
其他文献
2005年12月14日,《联合国反腐公约》在中国正式生效,中国反腐走上国际合作轨道,用国内、国际两个“轮子”推动深入反腐。  国务院总理温家宝在提请审议批准公约的议案中说,批准这一公约“有利于我国开展国际合作,遣返外逃腐败犯罪人员,追缴被非法转移国外的资产,有利于我国建立健全教育、制度、监督并重的腐败预防与惩治体系。”  国务院经审核认为,公约作为旨在预防和打击腐败、加强国际合作、促进跨国流动的腐
为倡导良好网络道德,响应中央“文明办网,文明土网”的要求,在国务院新闻办、国家信息产业部、违法和不良信息举报中心等部门支持下,人民网、新华同、央视国际等国家重点新闻网站联合举行“文明办网,文明上网——电信运营商在行动”系列专题,重点报道我国主要电信运营商在防范网上不良信息、才丁击非法网上服务、创建健康和谐网络环境等方面所采取的措施,以进一步推进网络文明新风,构建和谐社会。为此,本刊专访了中国网通集
《非对称风险:风险共担,应对现实世界中的不确定性》  随着全球化的加深,“风险”就成了热门议题,频繁现身于庙堂江湖。金融市场是最在意风险的行业之一,浸淫多年的塔勒布躬身自省,揭示了现代性风险最重要的面向:非对称性。非对称风险是由我们常说的“信息不对称”引起的:交易中的一方比另一方掌握的信息更多,拥有信息优势的一方就有可能出现欺诈行为。还有一类常见的非对称风险,是由权力和责任的不对称引起的。典型的就
近日蔚来汽车和特斯拉的自动驾驶功能接连受到质疑,让公众对待自动驾驶的态度变得更为谨慎了。据不完全统计,2021年年初至今,中国自动驾驶及智能汽车行业半年时间至少已完成49起融资事件,创近十年来同期新高。自动驾驶投融资事件在近十年来有430起,披露的融资金额近2601.2亿元。  目前,实现自动驾驶主要有两条技术路线,一条是科技巨头路线,以谷歌、百度等互联网企业为主要代表,通过开发软件算法,搭建自动
新中国的成立凝聚着老一辈革命家的艰苦奋斗和不懈努力,今天的幸福生活来之不易,我们要继承和发扬革命光荣传统,为实现中华民族的伟大复兴而不懈奋斗。    历史告诉我们:党在几十年的发展过程中并不是一帆风顺的,历经艰难与奋斗、失败与探索,才走出了一条光明正确的道路,造就了伟大光荣的党。  历史让我们知道:无数的革命先烈抛头颅、洒热血,把自己的青春和生命奉献给了人类最伟大的事业——为争取中华民族的独立和自
疫情“黑天鹅”冲击全球经济,产业链、供应链重构,去年,不少行业、企业的成绩单并不好看。如餐饮和旅游行业,不少企业都曾一度迎来生死存亡的至暗时刻。  硬币的另一面是,疫情期间,全球央行接力“放水”,货币环境很宽松。  3月底,国有六大行的2020年报均已发布,据国行投研室数据,6家银行的总资产约为124万亿,净利润为1.14万亿,分别占全部商业银行的46.57%与58.70%,换句话说,六大国有行以
近五年来,中国医疗器械市场规模一直保持稳步增长。数据显示,中国医疗器械整体市场规模已由2014年的2556亿元增长至2018年的5304亿元,年均增速保持在20%左右,营业收入及净利润均保持高速增长态势,属于医疗器械行业发展黄金期,预计到2022年中国医疗器械市场规模将超过9000亿元。  但相较于全球医疗器械市场,近三年中国医疗器械市场的结构已趋向优化但结构依然严重不平衡。早期中国医疗器械市场中
军队的宗旨和使命,既是军队的象征,更是军队本质的展示。军队与宗旨共生,军队与使命同在。人民军队将一如既往地坚持崇高宗旨,履行神圣使命。  中国共产党领导的中国人民解放军,已经走过了79周年的光辉历程,这支伟人的人民军队,在夺取政权和保卫政权的斗争中,一往无前,所向无敌,从胜利走向更人的胜利;在建设军队和巩固国防的进程中,快速发展,不断壮大,已成为保卫中华人民共和国的钢铁长城,维护世界和平的重要力量
塞浦路斯瓦罗沙街景,1974年前的希腊文招牌依旧可辨  1月11日,联合国塞浦路斯问题特使简·霍尔·卢特访问了塞浦路斯,分别同南北两侧的领导人举行了会谈,这是继去年12月以来第二次类似的会晤。从会后南北两侧分别举行的新闻发布会看,“联邦方案”与“两国方案”之间的根本分歧,依旧难以调和。  塞浦路斯面积不到1万平方公里,人口不过100余万,却长期忍受着南北分治的苦恼。在左右该岛命运的周边国家希腊与土
作家班宇  在南方的湿热里想象北方的冰雪,到底是有些困难。但班宇书中那些湿漉漉的场景,海边、泳池、明渠,却也为凛冽的东北增添了一点水润。  班宇的第一本小说集《冬泳》在2019年意外“出圈”,因为易烊千玺在社交网站上的分享,引起粉丝纷纷购买。不仅出圈,《冬泳》亦获得了主流文学界的肯定—班宇获第17届华语文学传媒盛典“年度最具潜力新人”、智族GQ年度新锐作家等奖项。  2019年,也一度刮起“东北文