全国首例!短视频平台领域“网络爬虫”案件!提供软件者被判刑一年六个月!

2021年9月,某信息公司员工吴先生在网络上发现有人在兜售一款名叫汇易获客的软件,通过对方官网获取电话,购买了该款软件。在使用过后,吴先生惊讶地发现该软件居然可以爬取自己公司后台数据和直播间用户的相关信息,随即报警。经侦查,公安机关发现售卖该软件的某信息咨询公司老板丁某有重大作案嫌疑。

经查,2019年,丁某在网上结识丁某某(另案处理),后者表示有一款“爬虫”软件可以获取某短视频平台数据,通过输入关键词能筛选出视频、评论、账户等信息,批量抓取意向用户进行业务推广。丁某试用后购买代理权,组织人员通过网络向多人销售,违法所得计24360元。2022年5月10日,经梁溪区检察院提起公诉,法院以提供侵入计算机信息系统程序罪判处被告人丁某有期徒刑一年六个月,缓刑两年,并处罚金三万元。法院认为,被告人丁某伙同他人提供用于侵入计算机信息系统的程序,情节严重,已构成侵入计算机信息系统程序罪,当庭作出判决,并禁止其在缓刑考验期内从事互联网相关经营活动。

据悉,该软件非法突破短视频平台防护机制,直接爬取大量用户的账号、评论等信息,继而根据用户习惯,发送私信实现精准营销,”网络爬虫”作为一项技术手段本身并不违法,但由于本案的软件采取了避开或突破计算机信息系统的安全保护措施,未经许可进入被害单位的计算机系统,即属于非法获取计算机信息系统数据罪中的侵入”行为。对此,本案承办法官表示,侵入计算机信息系统程序罪是刑法修正案(七)新增的一个罪名,主要针对向他人提供专门用于侵入或非法控制计算机信息系统工具或程序,或是明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的行为处以刑罚。

网络爬虫能够根据自身规则抓取信息的程序。作为搜索引擎的基础构件之一,网络爬虫直接面向互联网,是搜索引擎的数据来源,决定着整个系统的内容是否丰富、信息能否得到及时更新。网络爬虫的性能表现直接影响整个搜索引擎的效果。网络爬虫平时会在网络上自动爬取有用的数据,通过一定的选取机制、过滤机制、录用机制等,来丰富它们的数据库。事实上,每个搜索引擎的爬虫机器人都不一样,它们有着自己的一套“爬取机制”,谁把这个机制优化得最好,那么谁就能更快给到用户真正想要的信息。然而,网络爬虫却不总是合法的——网络恶意爬虫则会突破网站机器人协议的禁止爬取要求(规定在robots.txt文件的Disallow部分),爬取网站的核心数据资源,并可能极大地损耗被爬取网站服务器的性能。实际上,对于刷个短视频,个人信息和需求竟被他人获取,不久后,私人信箱中还会收到仿佛“量身定制”的推销信息的现象,其实就源于所谓的爬虫软件。显然,此次案件中涉及的“爬虫”软件就是利用技术手段突破短视频平台的反爬措施,非法获取后台服务器内指定的数据文件。无疑,网络爬虫作为数据资源获取和利用的重要手段,但无论是私法领域数据确权还是刑法领域数据法益保护,网络爬虫抓取数据的正当性、有效性都源于数据主体的授权,而技术一旦被恶意使用,在技术盛行的时代带来的伤害,也将是超过人们想像的。

近五千网站被曝“偷看”用户输入:还没点确定,信息就被发走

只是在登录界面打了几个字母,没确认没提交,网站居然就已经抓捕到了键入内容?是的,根据来自欧洲顶尖研究型学术院校——荷兰拉德堡德大学、洛桑大学、鲁汶大学的三位科学家的最新研究,全世界前10万排名的网站中,有近5000个门户网站都有过这样的行为,如福克斯新闻、商业内幕(business insider)、时代(Time)等网站。通过研究人员自制的爬虫脚本可以看到,在某一网站的登录界面输入邮件地址,鼠标移动到下一个输入框后,网站后台就已经准确抓取到了已输入数据:

用研究人员的话来说,就是“当点击下一个字段时,它们会收集前一个字段”,包括用户每一次修改的数据,甚至是账号密码。

那么,这样的抓取行为到底是如何做到的?事实上,很多常见的登录窗口都是表单网页,这是HTML中的一种概念,可以使网页和用户之间进行交互,并将用户填写的数据发送给服务器端。所以这些网页也可以被看作是一张或多张表格,用户名、密码、邮件地址等输入信息就是表格中的一行行数据。不仅为了满足基本的网页交互需求,还出于其他要求——比如检查键入的数据是否符合要求——用户的所有在线活动,包括鼠标点击和键入数据,对于网页来说都是“透明”且“可抓取”的。于是,很多网站便会使用一些第三方追踪器来监测用户,用于提供服务、广告、营销活动。这些活动的合法与否,就在于网页只是暂时抓取数据进行合法的交互,还是进行了行跨网站、跨平台和持久的识别。以Meta为例,它曾开发过一款第三方的网站事件管理/收集工具,Meta Pixel。Meta Pixel有一种叫做“自动高级匹配”的功能,可以自动从网页的表单数据中收集个人标识符,通过这一身份认证,就可以锁定同一用户在不同平台上的操作,进而测量广告的转化率和成效。

同时,官方文档里也写明:在用户提交表单时,Meta Pixel才会触发数据收集。但研究人员在调查中发现,Meta Pixel脚本在没有识别到提交按钮,或者监听(表单)提交事件时,也会触发数据收集机制。也就是说,安装有这一追踪器的网站,在用户点击提交按钮,甚至放弃表单关闭网页之前,就已经收集到了个人数据。研究团队统计发现,有超过1.5万个网站可能通过Meta Pixel泄露了信息。

此外,另一个较为出名的第三方网站事件管理工具,TikTok Pixel也有和Meta Pixel同样的问题,涉及了上百个网站的信息泄露。研究人员分别选出了美国和欧盟地区的十大泄露信息次数最多的网站,可以看到,其中的第三方网站事件管理工具除了上述两家,还有taboola、Bizible等广告商。

据了解,三位研究人员Asuman Senol、Gunes Acar、Mathias Humbert从去年开始调查,共爬取了10万多个网站。在发现问题后,团队已经在今年3月份向Meta提交了一份错误报告,该公司很快指派了一名工程师处理这个案件,但自那以后,就再也没有收到过更新报告。而TikTok在得到通知后,也并没有进一步的回应。研究团队表示,针对上述问题,他们已经开发了一款检测网页非法表单的插件,并将在今年8月份的Usenix安全会议上展示他们的发现,包括调查结果和爬虫程序的构成。

前一篇意大利多个重要政府网站遭新型DDoS攻击瘫痪,该国CERT发布警告
后一篇恶意NPM软件包瞄准德国公司进行供应链攻击