查看原文
其他

李汶龙:区分数据和信息有意义吗?从深圳数据条例说起

The following article is from 科技利维坦 Author 科技利维坦

作者 | 李汶龙

来源 | 科技利维坦


深圳最新出台数据条例有点意思。虽然国家层面立法采用了“个人信息”的概念,这部地方条例却如欧盟法一样使用了“个人数据”。争议纷至沓来,有两派对立观点。有认为是创新的,进一步细化个人信息保护规则;也有认为是僭越的,会与上位法存在概念分歧。比之这两个对立的的观点,还有另外一个更为复杂的观点,认为深圳数据条例存在创新的可能,却没有利用好,结果反而造成“立法资源的浪费”。言下之意,地方立法者可以选择实体法之外的概念,例如个人数据,但不应当换汤不换药,使用“个人数据”的概念重述《个人信息保护法》的规则。支撑这种观点的理由我目前看到了三个:其一,ISO的标准对数据和信息进行了划分;其二,《民法典》看似对个人信息和数据做了不同的安排;其三,使用数据和信息指代不同对象有利于形成更清晰的法律规则,解决现实问题。


这篇文章中我尝试回应这些观点。我的根本观点是,区分数据和信息没有意义,至少是在数据保护的语境当中。至于一些法律学者认为,我们可以务实主义地使用一些概念形成个人信息保护的规范意义,我认为这样做所产生的问题会比解决的多。


信息和数据究竟是什么关系呢?为什么我们会天然地认为这两个概念指代的是不同的东西,但在法律及其他语境当中却存在混用?对于每一个学习数据法的人或许都有过这样的疑惑:为什么欧洲人使用的是个人数据的概念,而中国却用的是“个人信息”?要探寻信息与数据的本质区别,法律文本和中文文献不会给我们提供答案,我们必须跳出法律的框架。我会先从信息和数据这两个概念的科学原义说起。此后,我会回到规范语境当中,回应一些关于使用这些概念务实主义或者现实主义的考量。


讨论信息或者数据的本质,人们往往会不自觉地追溯到美国数学家香农(Claude Shannon),但这样的思路一开始就错了。香农对于信息的定义广为流传:所谓信息就是“对不确定性的排除”(‘information is the eliminated uncertainty’)。提出这样一种定义,是因为香农统计学出身,而他的著作根本就没有想要发展出来一套关于信息的理论,甚至没有想要试图定义信息。他的注意力主要放在了通讯理论,而后来的追随者将其重新包装为信息理论。因此,社会科学和人文学者不应追溯到香农这里来理解信息的本质,因为香农并没有站在一个普世、哲学的视角来发展他的理论。换言之,我们需要的是牛津学者Luciano Floridi这样的信息哲学家,而非香农这样的统计学家。加州大学的数学家Mark Burgin在他的《信息理论》一书中就曾指出,以香农作为讨论的出发点会忽略关于人类的面向,对于整个社会科学和人文学科而言是有误导性的。这里当然也就包括法律。


再次,目前最为广为流传的,区分信息和数据的理论即所谓的General Definition of Information(GDI),认为信息就是数据+意义(Floridi, 2015)。而ISO标准中对信息和数据的定义区分也可以追溯于此。比GDI更为复杂的,有管理科学家如R.L.Ackoff及其追随者发明出来的DKIW体系。简要来说,DIKW(Data-Information-Knowledge-(Understanding)-Wisdom)就是数据经过处理后形成信息,信息经过整合成为知识,知识真正为人所参悟和使用为理解,而理解再进一步提炼才是智慧。Ackoff本人还对这四类存在的量进行了估算,认为人类思考当中有40%是数据,30%是信息,20%是知识,还有10%是理解,而且几乎不存在智慧。(Ackoff,1989:3)因此,DIKW体系呈金字塔形状。



基于GDI或者DIKW,数据和信息的区分关键在于是否存在意义(meaning)。但是,将意义作为区分的界格存在诸多瑕疵。首先,对于人类没有意义的信号、样式、符号可能对于世界上存在的其他生物确实沟通和理解的媒介。关于意义究竟是属于人类社会还是宇宙普世,在哲学界有持续的争论。其他生物在我们这里讨论的意义不大,我们还是将焦点置于人类能够感知、捕捉和使用的意义。其次,意义本身是一个很浮动的东西,也是一个很相对的东西。我所写的中文对于读者的你而言是有意义的,但对于很多其他国家的人来说就是乱码。计算科学家讨论的复杂机器学习算法对于很多法律工作者而言也是天书。正如Floridi(2015)所定义的那样,信息既可以指代过程(通讯),也可以被指代结果(知识)也可以指代物体,本质上它就是一个“概念迷宫”(conceptual labyrinth)。再次,人工智能的出现彻底颠覆了既有讨论。即便我们能够说意义属于人类不属于其他低等生物,如今我们已经无法自信地主张人类是世界上唯一掌握意义的存在。数据挖掘、机器学习等科技现象都在说明,机器在在庞杂无章的巨量数据中搜寻关联、趋势、影响的能力要远远超越人类。用荷兰学者Purtova(2018)的话说,人类已经失去了对于意义的垄断。用意义作为信息和数据的界格在当下已经没有意义,因为摆脱掉这种人类中心主义的理解,凡是数据变有意义,虽然这里的意义并不全是人类能够获取、理解和使用的。


除了意义之外,还存在一些未经反思的其他标准,在我们日常生活中经常被不自觉地用于区分数据和信息。值得注意的是,存在着这样一种非常普遍的天然想象,认为数据和信息指代的不是一个东西,基于“常识”就可以理解它们的区别。信息往往被理解为个人的,例如在注册某个网站或者应用时我们填写的叫做信息。而数据往往是跟个人不那么相关的,我们不太熟悉的,拿到个人手里也没有太多用处的,似乎是存储在企业服务器里面的那个叫做数据。这里所使用的标准很难清晰地表述出来,并且存在多个。无论是“原始属性”(rawness)、数据来源、存储地、信息载体、体量、完整性、人类可读性(human readability)……这些标准都是相对且浮动的,不能反映数据和信息的本质。倘若以这些标准进行界分,又基于此建立信息规则,那么势必会带来许多意想不到的法律适用问题。实际上,信息和数据的概念界限没有我们想象得那么清晰。


这里存在两种常见的误解,其一是信息和信息载体的混淆,例如手机和手机中所载的信息。虽然在有些情形下信息与信息载体很难分离(例如人体组织)但是不应混为一谈。其二是刚才提到的,通常人们会认为数据带有一种原始属性(raw data),而信息似乎是更加高级的,直白的,可以直接为人类掌握大概的,但实际上二者都在描述对生物世界的数字重现,在意义范畴之外并没有很明晰的界限。在个人信息保护的语境当中,由于以可识别性(identifiability)作为基准,区分二者更无必要。无论是我们主动填写的注册信息,还是企业数据库里生成存储的关于我们的数据,都有可能被认定为个人信息或者个人数据。


如果我们去探究GDPR传统下对于信息和数据的安排,我们会发现在数据保护语境中,信息和数据基本上是通用的。GDPR第4条对数据的概念最终落在了信息上,而第29条工作组提供的指引(WP136)也几乎在这个问题上没有任何建树,似乎认为这两个概念自证其明,不需要解释。


  ***

上文述及,在科学语境当中区分信息和数据、信息载体和信息愈发困难。但有人会主张法律的语境与此不同,如何定义完全取决于法律人自己。概言之,法律的归法律,科学的归科学。那么,除了信息科学的语境之外,区分数据和信息有规范意义吗?


接下来我们来关注这个我称之为“法律(人)中心主义”的倾向。持这类倾向的人主张,我们不需要关心科技或者科学语境中如何定义。我们只需要赋予足够周延的法律概念,在法律秩序中他们就有了新的生命,可以为我们所用。就好似我们创设物权行为和债权行为一样,在数据保护法中我们也可以进行对于数据和信息的法律构造。


这样一种务实主义初衷是好的,但是我们需要意识到法律构造与科学构造的不同,这是其一。将其他领域的概念引入法律体系当中而割裂其原生语义可能产生的规范影响,这是其二。


挪威学者LeeA. Bygrave几年前曾写过一篇文章,讨论法律语境中对信息、数据、通讯等概念的构造。他观察发现,伴随着我们进入数字社会,法律规则愈来愈多地开始使用和吸纳像数据和信息这样的概念——并且不限于隐私和数据保护法。但是,立法者往往选择不去定义信息或者数据,理由有多种,或是因为技术中立的考量,确保法律的稳定性,或是因为形成一个周延合理的法律概念几乎就是不可能的。(Bygrave,2015)


主张信息和数据的规范意义的人,是希望形成“信息归个人,数据归产业”的大体局面。看似这是一个可以完美平衡个人数据保护和信息流动的方案,但本质上却忽略了这两个概念的高度高度关联和重合的关系,以及可能带来的规范影响。


这种思考不仅仅存在于中国,欧盟在这个问题上也仍在掣肘。值得注意的是,欧盟没有在既有概念上多作纠结,而是选择了创造和定义新的概念。无论是19年出台的非个人数据流动条例,还是近来对GDPR的年度评估,以及《欧盟数据战略》,都是基于可以通过概念的界定形成规则体系的界分的。但其所创造的有如迷宫的概念体系——“非个人数据”(non-personal data)、“共生数据”(co-generated data)、机器生产数据(machine-generated data)、“产业数据”(industrial data)——也仍然是一个死胡同,不值得国内在《个人信息保护法》形成之后借鉴。


希冀法律构造超越原有的概念分歧,同时借由外来概念形成治理数据的规则,这样的一箭双雕想法有些过于乐观。调和数据流动和数据保护本身是一个非常复杂的事业,我们不能希冀通过一两个概念就能勾勒出整个规则体系并划清范畴。个人信息及其关联概念又至关重要,动辄触及制度根本,因此即便是关联概念的处理也马虎不得。


因此,我在文末提供三点建议:


1.我们当然可以务实主义,尤其是存在强大的建制阻碍的当代中国,立法智慧尤其重要。但是,我们也要意识到概念选择带来的不可忽略的规范意义。法律规则是用来解决问题的,但也有可能创造问题。对于立法者而言创造好的法律当然锦上添花,但不创造有问题的法律本身却是造福社会。


2.我们当然可以进行法律构造,也可以使用其他领域的既有概念。在后者的情形下,我们至少要尊重原有含义,不能强行割裂语境,完全不顾概念的原生含义以及相关分歧。因此,与其说这是一个立法技术的问题,不如说这是一个立法能力的问题。


3.调和数据保护和数据流动这一经典问题不能基于概念分类这种简单的思考。我们需要基于理论的、缜密的和全面思考的讨论。美国法律学者Julie Cohen和Helen Nissenbaum的著作或许是一个好的出发点。


-END-


责任编辑 | 陈楠

审核人员 | 张文硕

本文声明 | 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北大法律信息网(北大法宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。


往期精彩回顾
梅夏英:信息和数据概念区分的法律意义 | 比较法研究202006
桂祥:大数据时代个人信息中间商模式分析 | 上海对外经贸大学学报202101
邢会强:大数据时代个人金融信息的保护与利用 | 东方法学202101
吴沈括 胡然 | 欧盟委员会《欧洲数据治理条例》提案研究


点击相应图片识别二维码

获取更多信息

北大法宝

北大法律信息网

法宝学堂

法宝智能

点击「在看」,就是鼓励

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存