数据爬虫的法律边界探析
——浅议“非法获取计算机信息系统数据罪”的适用问题
吴卫明 高级合伙人/博士 上海锦天城律师事务所
网络爬虫,又称网页蜘蛛、数据机器人(robots),是一种依据预设规则自动采集互联网信息的程序或脚本。该技术广泛应用于各类数据获取场景,是现代互联网生态中的基础工具之一。然而,尽管其技术中立,实践中却常因使用方式引发法律争议。近期一起刑事案件的判决书在网络上公开后,再度引发公众对爬虫行为刑事规制的关注。尤其在“非法获取计算机信息系统数据罪”的适用标准上,亟需更清晰的界定与反思。
案件回顾
根据法院查明的事实:
被告单位为上海某网络科技有限公司(以下简称“抓取公司”),于2016年至2017年期间,通过技术手段从被害单位北京某网络技术有限公司(简称“被抓取公司”)的服务器中提取视频数据。为抓取数据,该公司破解了对方设置的防爬机制,并利用名为“tt_spider”的文件执行数据抓取操作,造成后者技术服务费用损失人民币2万元。
经司法鉴定,“tt_spider”程序包含调用三大接口(头条号视频列表、分类视频列表、相关视频及评论)以访问被抓取公司服务器并存储数据的逻辑结构。在运行过程中,该程序通过伪造device_id绕过身份验证机制,同时使用虚假UA和IP地址规避服务器的访问频率限制策略。
[此处为图片1]
法院认定:被告单位及其责任人员违反国家规定,采用技术手段非法获取计算机信息系统中存储的数据,情节严重,已构成“非法获取计算机信息系统数据罪”。考虑到被告人如实供述、违法性认识不足、认罪态度良好,且本案适用认罪认罚从宽制度,最终予以从轻处罚。
由于案件采用认罪认罚程序审理,判决书中未充分披露控辩双方的核心观点及关键事实细节。但从现有信息来看,定罪的主要依据在于两点:一是使用“tt_spider”程序实施数据抓取;二是通过伪造device_id、UA与IP等手段绕过系统防护措施。
然而,若深入剖析上述行为性质,则有必要追问:此类行为是否真正符合刑法意义上“采用技术手段非法获取数据”的构成要件?其是否足以构成刑事犯罪,仍存在讨论空间。
爬虫技术的本质与典型应用
随着互联网信息量呈指数级增长,如何高效筛选和获取有效内容成为用户和技术开发者共同面对的问题。在此背景下,网络爬虫应运而生。作为一种自动化信息采集工具,爬虫极大提升了信息检索与处理效率,推动了搜索引擎、数据分析等行业的发展。
常见的爬虫类型包括通用爬虫、聚焦爬虫、增量式爬虫等,其应用场景多样,主要包括以下几类:
1. 搜索引擎服务
典型的通用爬虫代表即为搜索引擎系统(Search Engine)。这类程序依照特定算法和策略,主动遍历网页、抓取内容、建立索引,并为用户提供关键词检索服务。例如Google、Yahoo、百度等主流搜索引擎均依赖大规模爬虫系统实现信息覆盖。其核心目标是帮助用户发现目标网页或资源位置,属于公共信息服务范畴,通常不涉及敏感数据访问。
2. 商业化定向信息采集
相较于通用搜索,许多企业需要针对特定网站进行深度数据挖掘,如提取商品名称、价格、库存、用户评价等结构化信息。为此需开发聚焦型网络爬虫(Focused Web Crawler),专门用于抓取特定领域内的目标数据。此类爬虫多服务于市场分析、竞争监测、比价系统等商业用途。
正因其常作用于竞争对手平台,容易触及数据权益边界,因此也成为民事侵权纠纷甚至刑事报案的高发场景。尤其是在未获授权的情况下高频抓取、大量复制他人运营数据时,可能被主张侵犯合法权益。
3. 基于用户授权的代理式爬取
另一种特殊情形是:用户主动提供账号密码,委托第三方通过爬虫程序登录其个人账户,提取账户内特定信息,用于信用审核、数据备份或其他约定用途。这种模式下,虽然存在绕过前端界面的操作,但因具备用户授权基础,在法律定性上更具抗辩空间。不过,一旦超出授权范围或滥用权限,仍可能面临法律责任。
4. 实时更新监测:增量式爬虫
增量式网络爬虫(Incremental Web Crawler)主要用于持续监控目标网站的内容变更情况,仅抓取新发布或修改过的数据,避免重复采集。该类型可视作特定信息收集需求的延伸应用,广泛用于舆情监控、新闻聚合、价格波动追踪等领域。
综合来看,爬虫本身是一项中立的技术工具,旨在提升信息流通效率。正如刀具可用于烹饪也可用于伤人,技术本身的合法性取决于具体使用方式与目的。只有当其被用于突破安全防护、大规模窃取数据、干扰系统正常运行等行为时,才可能进入法律追责视野。
因此,在判断某一爬虫行为是否构成“非法获取计算机信息系统数据罪”时,不能仅以是否存在自动化抓取行为作为唯一标准,而应结合行为手段、权限状态、数据属性、系统影响等因素进行全面评估。
爬虫行为在技术应用中广泛存在,但其法律边界尤其是刑法适用问题亟需明确。为在打击违法犯罪的同时避免刑法过度扩张,影响技术创新与社会经济效率,有必要对相关刑事罪名进行深入剖析。
从行为本质来看,爬虫的核心在于访问并获取信息系统中的数据。根据获取内容的不同性质以及访问方式的合法性,可能涉及多项刑法罪名。若所获信息属于公民个人信息,且获取过程具有非法性,则可能构成“侵犯公民个人信息罪”;而若重点在于访问行为本身是否合法,则更可能触及“非法获取计算机信息系统数据罪”。此外,若明知所提供的爬虫程序将被用于非法用途,仍予以开发或传播,则可能涉嫌“提供侵入、非法控制计算机信息系统的程序、工具罪”。
[此处为图片1]
本文聚焦于司法实践中常见的“非法获取计算机信息系统数据罪”,因其在爬虫行为的法律认定中极易引发争议。鉴于文章主旨在于探讨技术措施的法律定性,故对其他潜在关联罪名暂不展开论述。
关于该罪名的客观要件,《中华人民共和国刑法》第二百八十五条明确规定:“违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统,或者采用其他技术手段,获取该系统中存储、处理或传输的数据,情节严重的”,即构成本罪。
然而,条文并未对“侵入”或“其他技术手段”的具体含义作出解释,导致司法适用中存在较大模糊空间。尽管《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》(法释〔2011〕19号)未直接界定“侵入”的概念,但在第二条中指出,用于“侵入”的程序或工具是指“具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能”。由此可推知,“侵入”应具备两个关键特征:一是绕过或突破系统安全防护机制;二是未经授权或超出授权范围访问,进而威胁系统安全。
但对于“其他技术手段”是否涵盖常规爬虫技术,司法解释仍未给出明确答案,成为实践中的难点之一。
进一步从法益角度分析,该罪名被归类于“危害计算机信息系统安全犯罪”范畴,表明其立法目的主要在于维护国家对信息系统安全的管理秩序,保护的核心法益是系统运行的安全性与稳定性,而非信息内容本身的归属或使用权益。
对于信息系统控制者而言,第三方通过爬虫获取数据的行为,需区分其是否危及系统安全。若访问方式未对系统造成干扰或破坏,仅涉及数据内容的利用,则更多属于民事财产权或市场竞争领域的调整范围;唯有当访问行为本身损害了系统的安全性,如造成服务器过载、绕开身份验证机制等,才可能触发刑事评价。
因此,判断爬虫行为是否具有刑事违法性,关键在于其是否实际影响了信息系统的安全状态。然而,现行《刑法》及《计算机信息系统安全司法解释》均未清晰界定何种访问行为构成“危害系统安全”,这一立法空白使得执法和司法实践中容易出现标准不一、界限模糊的问题。


雷达卡


京公网安备 11010802022788号







