网络爬虫与隐私:你以为你看到的就是真实的吗

  你以为你在大众点评上找到的馆子,真的是几百个人给了好评,然后才出现在你的推荐里的吗?

  你以为你在百度上搜索到的信息,真的是百度想让你看到的吗?(注意体会这句话的意思,不是日常黑百度)

  每年总有那么几天,幺哥会心情焦虑,坐立不安。那是因为,他又要准备抢回家的火车票了。幺哥家在湖南,离北京上千公里。他是家里的独子,每年买到火车票准时出现在家门口是他的“义务”。

  这两年,他的救命稻草是一个抢票软件,他在打折的时候买了会员,据说会员是有特权的:哪怕只抢到一张票,都会优先给他。(起码幺哥是这样安慰自己的。)

  从技术上说,幺哥的救命稻草不是抢票软件,而是抢票软件背后,无数个叫做“爬虫”的东西。

  就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。看到最后,我发现这哪里是《中国爬虫图鉴》,这分明是一份《中国焦虑图鉴》。

  这张图里显示的,就是各行各业被爬“叨扰”的比例。(这张图显示是全世界,不是全中国)而每一个色块背后,都是一条真实而强大的利益链条。

  这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,

  没错,抢票软件也不是吃素的,它们在和铁总搞“对抗”,有一种东西叫做“打码平台”,你可以了解一下。

  你可能会问:为什么 12306 这么“抠”呢?它大方地让爬虫随意爬会死吗?

  “最高峰时1天内页面浏览量达 813.4 亿次,1 小时最高点击量 59.3 亿次,平均每秒 164.8 万次。”

  很多人可能都没坐过亚洲航空,这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝度假之首选。

  技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。

  亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后0.00001秒之后,就帮你用你的名字预定了这张票。

  这里的代码其实指向了微博的一个接口,它可以用来获取某个人的微博列表、微博的状态、索引等等。

  我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论;

  我去找一个游戏厂商,让他在我这投广告吧。我发一条游戏的注册链接,每有一个人通过我的链接注册了游戏,游戏厂商就给我一毛钱;

  这个原理和谷歌差不多,只不过他们展示的不是网页而是商品。但是被放在一起比价,淘宝是拒绝的,京东也是拒绝的啊……

  然而,由于机器爬虫模拟的是人的点击,电商很难阻止这类事情发生,他们甚至都不能向 12306 学习。你想想看,如果你每点开一个商品详情,淘宝都让你先分辨一次白百何和王珞丹,你肯定没心情剁手了。

  假设几家店铺都卖杜蕾斯,但是用户在我这里搜索“杜蕾斯”的时候,我是有权利决定谁的店铺在前面谁在后面。谁给的钱多,我就让谁在搜索的前面。(注意,每个店铺和淘宝平台可不是一致行动人。淘宝平台不希望自己的内容被聚合平台抓取,但每个店铺可是很乐意多一个渠道帮他们卖货的。)

  如果你觉得搞竞价排名良心会痛,也可以用更简单的方式——在网页上展示独立的广告。访问你网站的用户,看到页面上的广告,也有可能会点击。每点击一次,你就赚一次钱。

  大众点评是点评网站,内容比较全面,很多网站都会爬取大众点评的数据,用来丰富自己的信息。

  很多刚上点评的商户,信誉值不高,可以用爬虫来模拟留言、点赞,刷高自己的信誉值。

  所以,理论上讲一旦大众点评对这些爬虫对抗出现松懈,就会有一些并不怎么样的店铺被“刷”到顶部。

  你可能了解,搜索引擎决定哪个网页排名靠前,(除了广告以外)主要一个指标就是看哪个搜索结果被人点击的次数更多。既然这样,那么我就派出爬虫,搜索某个特定的“关键词”,然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。这个过程就叫做 SEO(搜索引擎优化)。

  其他的,例如:法院公告、信用中国、信用安徽,为什么爬虫要爬这些信息呢?

  在这个平台上,你只要输入一个身份证号或者手机号,就可以查询到一个人的信用情况,而这个网站正是属于政府机构的。

  如果一家公司要对外做信誉库的服务,它必须先把信用中国的信息下载到自己的库里,然后才能和其他数据进行综合运算。如此,信用中国被爬,也就很容易解释了。

  刚才那张表格里,排名第七的是四川住建厅。根据御风的推测,这很可能是某些公司提供的一项“特殊服务”:他们把四川省各个地区的招标情况汇总起来,然后实时提醒那些房地产公司“别睡了,起来投标了”。

  除了刚才这些小模块,企业还可以通过 WAF(Web 应用防火墙)来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。

  这张表里,除了google、Youtube、ask、亚洲航空这四家企业之外,应该全是中国企业(或机关)。正是从这些名字背后,我体会到了很多人的辛酸和焦虑。

  爬虫是趋利的,它们永远会向有利益的地方爬行。而爬虫觉得有利益的地方,往往是我们不忍提及的隐痛。

  排名第8的是“最高人民法院公告查询”,在中国,我们的信用体系还很不完善,骗子和老赖还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。

  我不知道技术是否有罪,我只知道,这些盘踞在我们广袤版图上数以十亿计的爬虫,无时无刻不在提醒着我们:

  抱怨不会让这个世界变得更好,你想生活在一个怎样的世界,就要用自己的双手去创造它。

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

分享到
扫描二维码分享到微信
确 认

Copyright ©2018 网赌给提款的靠谱平台 版权所有 备案号:苏ICP备15036878号