第三部分大数据时代的管理变革07风险:让数据主宰一切的隐忧
我们的隐私被二次利用了
我们倾向于从数字数据的增长和奥威尔写《1984》时所处“监视炼狱”的角度去理解大数据给个人隐私带来的威胁。但是事实上,不是所有的数据都包含了个人信息。其实,不管是传感器从炼油厂采集的数据、来自工厂的机器数据、机场的气象数据,还是沙井盖爆炸数据都不包含个人信息。英国石油公司和纽约爱迪生联合电力公司不需要(也不想要)个人信息,就能分析挖掘出他们所需要的数据价值。事实上,这方面的数据分析并不威胁个人隐私。
当然,目前所采集的大部分数据都包含有个人信息,而且存在着各种各样的诱因,让我们想尽办法去采集更多、存储更久、利用更彻底,甚至有的数据表面上并不是个人数据,但是经由大数据处理之后就可以追溯到个人了。
比方说,如今在美国和欧洲部署的一些智能电表每6秒钟采集一个实时读数,这样一天所得到的数据比过去传统电表收集到的所有数据还要多。因为每个电子设备通电时都会有自己独特的“负荷特征”,比如热水器不同于电脑,而它们与led大麻生长灯又不一样,所以能源使用情况就能暴『露』诸如一个人的日常习惯、医疗条件和非法行为这样的个人信息。(led大麻生长灯,是一种植物补光灯,也是植物生长灯的一种,依照植物生长需要太阳光的规律,代替阳光给植物提供更好的生长发育环境——编者注)
然而,我们要探讨的主要是大数据是否改变了这种威胁的『性』质,而不是是否加剧了这种威胁。如果仅仅是加剧了这种威胁,那么我们现在采用的保护隐私的法律法规依然是有效的,我们只需要付出加倍的努力来确保有效『性』就可以。然而,倘若威胁的『性』质已经改变了,我们就需要寻求新的解决方案。
不幸的是,我们的担忧一语中的。大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想:数据收集者必须告知个人,他们收集了哪些数据、作何用途,也必须在收集工作开始之前征得个人的同意。虽然这不是进行合法数据收集的唯一方式,“告知与许可”已经是世界各地执行隐私政策的共识『性』基础(虽然实际上很多的隐私声明都没有达到效果,但那是另一回事)。
更重要的是,大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新『性』的用途。所以,公司无法告知个人尚未想到的用途,而个人亦无法同意这种尚是未知的用途。但是只要没有得到许可,任何包含个人信息的大数据分析都需要向个人征得同意。因此,如果谷歌要使用检索词预测流感的话,必须征得数亿用户的同意,这简直无法想象。就算没有技术障碍,又有哪个公司能负担得起这样的人力物力支出呢?
同样,一开始的时候就要用户同意所有可能的用途,也是不可行的。因为这样一来,“告知与许可”就完全没有意义了。大数据时代,告知与许可这个经过了考验并且可信赖的基石,要么太狭隘,限制了大数据潜在价值的挖掘,要么就太空泛而无法真正地保护个人隐私。
同时,想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。我们把谷歌街景作为一个例子来看,谷歌的图像采集车在很多国家采集了道路和房屋的图像(以及很多备受争议的数据)。但是,德国媒体和民众强烈地抗议了谷歌的行为,因为民众认为这些图片会帮助黑帮窃贼选择有利可图的目标。有的业主不希望他的房屋或花园出现在这些图片上,顶着巨大的压力,谷歌同意将他们的房屋或花园的影像模糊化。但是这种模糊化却起到了反作用,因为你可以在街景上看到这种有意识的模糊化,对盗贼来说,这又是一个此地无银三百两的例子。
另一条技术途径在大部分情况下也不可行,那就是匿名化。匿名化指的是让所有能揭示个人情况的信息都不出现在数据集里,比方说名字、生日、住址、信用卡号或者社会保险号等。这样一来,这些数据就可以在被分析和共享的同时,不会威胁到任何人的隐私。在小数据时代这样确实可行,但是随着数据量和种类的增多,大数据促进了数据内容的交 叉检验。
2006年8月,美国在线(aol)公布了大量的旧搜索查询数据,本意是希望研究人员能够从中得出有趣的见解。这个数据库是由从3月1日到5月31日之间的65.7万用户的2000万搜索查询记录组成的,整个数据库进行过精心的匿名化——用户名称和地址等个人信息都使用特殊的数字符号进行了代替。这样,研究人员可以把同一个人的所有搜索查询记录联系在一起来分析,而并不包含任何个人信息。
尽管如此,《纽约时报》还是在几天之内通过把“60岁的单身男『性』”、“有益健康的茶叶”、“利尔本的园丁”等搜索记录综合分析考虑后,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡『妇』塞尔玛·阿诺德(thelmaarnold)。当记者找到她家的时候,这个老人惊叹道:“天呐!我真没想到一直有人在监视我的私人生活。”这引起了公愤,最终美国在线的首席技术官和另外两名员工都被开除了。
事隔仅仅两个月之后,也就是2006年10月,dvd租赁商奈飞公司做了一件差不多的事,就是宣布启动“netflixprize”算法竞赛。该公司公布了大约来自50万用户的一亿条租赁记录,并且公开悬赏100万美金,举办一个软件设计大赛来提高他们的电影 推荐系统的准确度,胜利的条件是把准确度提高10%。同样,奈飞公司也对数据进行了精心的匿名化处理。然而还是被一个用户认出来了,一个化名“无名氏”的未出柜的同『性』恋母亲起诉了奈飞公司,她来自保守的美国中西部。
通过把奈飞公司的数据与其他公共数据信息对比分析,得克萨斯大学的研究人员很快发现,匿名用户进行的收视率排名与互联网电影 数据库(imdb)上实名用户所排的是匹配的。
在美国在线的案例中,我们被我们所搜索的内容出卖了。而奈飞公司的情况则是因为不同来源数据的结合暴『露』了我们的身份。这两种情况的出现,都是因为公司没有意识到匿名化对大数据的无效『性』。而出现这种无效『性』则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
科罗拉多大学的法学教授保罗·欧姆(paulohm),同时也是研究反匿名化危害的专家,认为针对大数据的反匿名化,现在还没有很好的办法。毕竟,只要有足够的数据,那么无论如何都做不到完全的匿名化。更糟的是,最近的研究表明,不只是传统数据容易受到反匿名化的影响,人们的社交 关系图,也就是人们的相互联系也将同受其害。
与25年之前的民主 德国相比,现在我们所受的监控没有减少,反而变得越来越容易、严密以及低成本。采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序。我们知道大多数的汽车中都装了一个“黑盒子”——用来监测安全气囊激活的情况,而如今,一旦出现具有争议的交 通案件,这个黑盒子所采集的数据就可以在法庭上充当证据。当然,如果企业采集数据只是来提高绩效,我们就不用像被stasi窃听 那样而感到那么害怕。毕竟企业再强大,也不如国家强制力。
不过,即使它们不具备国家强制力,想到各种各样的公司在我们不知情的情况下采集了我们日常生活方方面面的数据,并且进行了数据共享以及一些我们未知的运用,这还是很恐怖的。对大数据大加利用的不只是私营企业,『政府』也不甘落后。
据《华盛顿邮报》2010年的研究表明,美国国家安全局每天拦截并存储的电子邮件、电话和其他通信记录多达17亿条。前美国安全局官员威廉·宾尼(williambinney)估计『政府』采集的美国及他国公民的通信互动记录有20万亿次之多,其中包括谁和谁通过话、发过电子邮件、进行过电汇等信息。为了弄明白这所有的数据,美国建立了庞大的数据中心,其中美国国家安全局就耗资12亿美元在犹他州的威廉姆斯堡建立了一个。
如今,不再只是负责反恐的秘密机关需要采集更多的数据,所有的『政府』部门都需要,所以,数据采集扩展到了金融交 易、医疗记录和facebook状态更新等各个领域,数据量之巨可想而知。『政府』其实处理不了这么多数据,那为什么要费力采集呢?
这是因为在大数据时代,监控的方式已经改变了。过去,调查员为了尽可能多地知道嫌疑人的信息,需要把鳄鱼夹夹到电话线上。当时最重要的是能深入调查某个人,而现在情况不一样了,比如谷歌和facebook的理念则是人就是社会关系、网上互动和内容搜索的加和。所以,为了全面调查一个人,调查员需要得到关于这个人的最广泛的信息,不仅是他们认识的人,还包括这些人又认识哪些人等。过去的技术条件没法做到这样的分析,但是今非昔比了。
不过,虽然企业和『政府』拥有的这种采集个人信息的能力,让我们感到很困扰,但也还是没有大数据所引起的另一个新问题让我们更恐慌,那就是用预测来判断我们。
挣脱大数据的困境
大数据为监测我们的生活提供了便利,同时也让保护隐私的法律手段失去了应有的效力。面对大数据,保护隐私的核心技术不再适用了。同样,通过大数据的预测,对我们的未来想法而非实际行为采取惩罚措施,也让我们惶恐不安,因为这否认了自由 意志并伤害了人类尊严。
同时,那些尝到大数据益处的人,可能会把大数据运用到它不适用的领域,而且可能会过分膨胀对大数据分析结果的信赖。随着大数据预测的改进,我们会越来越想从大数据中掘金,最终导致一种盲目崇拜,毕竟它是如此的无所不能。这就是我们必须从麦克纳马拉的故事中引以为戒的。
必须杜绝对数据的过分依赖,以防我们重蹈伊卡洛斯的覆辙。他就是因为过分相信自己的飞行技术,最终误用了数据而落入了海中。下一章,我们将探讨如何让数据为我们所用,而不让我们成为数据的奴隶。