又一家数据公司被查，爬虫到底哪里有错？

本文主要是介绍又一家数据公司被查，爬虫到底哪里有错？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

“ 阅读本文大概需要 5 分钟。”

9 月 6 日下午，多位业内人士称，杭州知名大数据服务公司杭州魔蝎数据科技有限公司，疑似被相关执法人员控制，其中一位周姓核心高管人员被警方带走。

以上是昨天技术圈传播的一则新闻，又一家数据公司被调查，很多数据从业者、爬虫开发者发出了“感叹” —— 「爬虫用得好，XX进得早；数据玩得溜，XX吃个够」。

魔蝎科技作为一家数据服务公司，曾在 2017 年一篇『爬虫凶猛：爬支付宝、爬微信、窃取现金贷放贷数据』的文章中，被指出存在开发使用恶意爬虫的行为。

当然关于魔蝎科技为什么被查，这个等待执法部门的调查结果即可，咱们不在这里无端猜测。

我今天要说的是关于爬虫的合法性，我希望通过一些案例来探讨：怎样做一个不触碰红线的爬虫开发者。

爬虫作为一种计算机技术，具有技术中立性，爬虫技术在法律上从来没有被禁止。爬虫的发展历史可以追溯到 20 年前，搜索引擎、聚合导航、数据分析、人工智能等业务，都需要基于爬虫技术。

但是爬虫作为获取数据的技术手段之一，由于部分数据存在敏感性，如果不能甄别哪些数据是可以爬取，哪些会触及红线，可能下一位上新闻的主角就是你。

如何界定爬虫的合法性，目前没有明文规定，但我通过翻阅大量文章、事件、分享、司法案例，我总结出界定的三个关键点：采集途径、采集行为、使用目的。

数据的采集途径

通过什么途径爬取数据，这个是最需要重视的一点。总体来说，未公开、未经许可、且带有敏感信息的数据，不管是通过什么渠道获得，都是一种不合法的行为。

所以在采集这类比较敏感的数据时，最好先查询下相关法律法规，特别是用户个人信息、其他商业平台的信息等这类信息，寻找一条合适的途径。

个人数据

采集和分析个人信息数据，应该是当下所有互联网都会做的一件事，但是大部分个人数据都是非公开的，想获得必须通过合法途径，可参见『网络安全法』第四十一条：

网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意...

也就是必须在提前告知收集的方式、范围、目的，并经过用户授权或同意后，才能采集使用，也就是我们常见的各种网站与 App 的用户协议中关于信息收集的部分。

公开数据

从合法公开渠道，并且不明显违背个人信息主体意愿，都没有什么问题。但如果通过破解、侵入等“黑客”手段来获取数据，那也有相关法律等着你：

刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”：

违反 Robots 协议

虽然 Robots 协议没有法规强制遵守，但 Robots 协议作为行业约定，在遵循之下会给你带来合法支持。

因为 Robots 协议具有指导意义，如果注明 Disallow 就说明是平台明显要保护的页面数据，想爬取之前应该仔细考虑一下。

数据的采集行为

使用技术手段应该懂得克制，一些容易对服务器和业务造成干扰甚至破坏的行为，应当充分衡量其承受能力，毕竟不是每家都是 BAT 级。

高并发压力

做技术经常专注于优化，爬虫开发也是如此，想尽各种办法增加并发数、请求效率，但高并发带来的近乎 DDOS 的请求，如果对对方服务器造成压力，影响了对方正常业务，那就应该警惕了。

如果一旦导致严重后果，后果参见：

《刑法》第二百八十六条还规定，违反国家规定，对计算机信息系统功能进行删除、修改、增加、干扰，造成计算机信息系统不能正常运行，后果严重的，构成犯罪

所以请爬取的时候，即使没有反爬限制，也不要肆无忌惮地开启高并发，掂量一下对方服务器的实力。

影响正常业务

除了高并发请求，还有一些影响业务的情况，常见的比如抢单，会影响正常用户的体验。

数据的使用目的

数据使用目的同样是一大关键，就算你通过合法途径采集的数据，如果对数据没有正确的使用，同样会存在不合法的行为。

超出约定的使用

一种情况是公开收集的数据，但没有遵循之前告知的使用目的，比如用户协议上说只是分析用户行为，帮助提高产品体验，结果变成了出售用户画像数据。

还有一种情况，是有知识产权、著作权的作品，可能会允许你下载或引用，但明显标注了使用范围，比如不能转载、不能用于商业行为等，更不能去盗用，这些都是有法律明文保护，所以要注意使用。

其他情况就不列举了。

出售个人信息

关于出售个人信息，千万不要做，是法律特别指出禁止的，参见：

根据《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定，对“情节严重”的解释：

不正当商业行为

如果将竞品公司的数据，作为自己公司的商业目的，这就可能存在构成不正当商业竞争，或者是违反知识产权保护。

这种情况在目前涉及爬虫的商业诉讼案中比较常见，两年前比较知名的案件，“车来了” App 抓取其竞品 “酷米客” 的公交车数据，并展示在自己的产品上：

虽然公交车作为公共交通工具，其实时运行路线、运行时间等信息仅系客观事实，但当此类信息经过人工收集、分析、编辑、整合并配合GPS精确定位，作为公交信息查询软件的后台数据后，此类信息便具有了实用性并能够为权利人带来现实或潜在、当下或将来的经济利益，已经具备无形财产的属性。元光公司利用网络爬虫技术大量获取并且无偿使用谷米公司“酷米客”软件的实时公交信息数据的行为，实为一种“不劳而获”、“食人而肥”的行为，构成不正当竞争。

节选自『深圳市中级人民法院（2017）粤03民初822号民事判决书』

「爬虫法」即将出台

好消息是，相关办法已经在路上了。

5 月 28 日零点，国家互联网信息办公室发布了《数据安全管理办法》征求意见稿。

我也查阅了这份意见稿，里面对数据的获取、存储、传输、使用等都做了一些规定，包括关于爬虫行为的若干规定（还在征求阶段，因此后续可能会有变化）。

比如，第二章第十六条：

网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。

第三章第二十七条：

网络运营者向他人提供个人信息前，应当评估可能带来的安全风险，并征得个人信息主体同意。下列情况除外：

节选自『数据安全管理办法（征求意见稿）』^[2]

结语

在此声明：以上所有内容仅是个人分析，可能存在错误之处，不能作为任何依据，具体以相关法律法规为准。

希望能给各位爬虫开发者，也包括其他开发者一些启示：技术虽中立，使用有善恶，一定要合理合规、严格谨慎地使用技术。

本文属于原创，首发于微信公众号「面向人生编程」，如需转载请后台留言。

References

[1] 新三板挂牌公司涉窃取30亿条个人信息: https://www.thepaper.cn/newsDetail_forward_2362227[2] 数据安全管理办法（征求意见稿）: http://www.moj.gov.cn/news/content/2019-05/28/zlk_235861.html

推荐阅读：

9月最新 Python 和其他语言工资对比，差距真大！

公众号文章批量下载爬虫实战！

640?wx_fmt=jpeg

这篇关于又一家数据公司被查，爬虫到底哪里有错？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

又一家数据公司被查，爬虫到底哪里有错？

数据的采集途径

个人数据

公开数据

违反 Robots 协议

数据的采集行为

高并发压力

影响正常业务

数据的使用目的

超出约定的使用

出售个人信息

不正当商业行为

「爬虫法」即将出台

结语

References

相关文章

Linux下利用select实现串口数据读取过程

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

C#使用iText获取PDF的trailer数据的代码示例

Pandas处理缺失数据的方式汇总

C++中处理文本数据char与string的终极对比指南

python库pydantic数据验证和设置管理库的用途

JAVA实现亿级千万级数据顺序导出的示例代码

SpringBoot分段处理List集合多线程批量插入数据方式

PHP轻松处理千万行数据的方法详解

C#实现千万数据秒级导入的代码