2016年8月,澳大利亚政府发布了一个由医疗账单记录组成的“匿名”数据集,其中包括290万人的所有处方和手术。
为了保护个人隐私,这些记录不包含姓名和其他身份信息。然而,墨尔本大学的一个研究小组立即发现,通过将数据集与其他***息进行比较,如明星分娩或运动员做手术的新闻报道,人们的身份信息可以很容易地被重新识别,并且可以在未经当事人同意的情况下获得完整的医疗记录。
后来,政府从网站上删除了这些数据——但之前这些数据已经被下载了1500次。
数字碎片可以被追溯,并以意想不到的方式侵犯人们的隐私。
看似无害的“去身份化”数据被反转,身份信息被曝光的例子数不胜数,澳大利亚的隐私噩梦就是其中之一。而且,情况只会变得更糟,因为人们上网的时间越来越长,到处扔数字碎片,这些可追溯的数字碎片会以意想不到的方式侵犯人们的隐私。
有人将纽约的匿名出租车记录与狗仔队在纽约许多地方拍摄的照片进行了比较,发现好莱坞明星布莱德利·库珀和杰西卡·阿尔芭没有给小费。2017年,德国研究人员根据“匿名”网页浏览模式成功发现了人的身份。最近,伦敦大学学院的研究人员演示了如何根据推文的元数据来确认推特用户的身份。Polar是一款健身追踪应用,它可以揭示家庭住址,甚至士兵和间谍的名字。
“人们自欺欺人地认为身份信息很难重新识别,其实不然。我们所做的,数据科学专业的新生也能做到,”发现澳大利亚医疗公共数据漏洞的墨尔本大学研究团队成员凡妮莎·蒂格(Vanessa Teague)说。
这种侵犯隐私的最早例子之一发生在1996年。当时,马萨诸塞州团体保险委员会公布了州政府雇员到医院就诊的“匿名”数据。与澳大利亚政府一样,马萨诸塞州政府删除了明显的身份信息,如姓名、地址和社会保险号。威廉·韦尔德州长向公众保证,病人的隐私受到保护。
Latanya Sweeney是一名计算机科学毕业生,后来成为美国美国联邦贸易委员会的首席技术官,他从数据集中找到了怀尔德的医疗记录,以证明他的话是多么错误。斯威尼从选民登记册中获得了怀尔德的邮政编码和出生日期,并利用他某天在公共仪式上晕倒后被送往医院的报道锁定了他的身份。斯威尼把怀尔德的医疗记录送到了他的办公室。
在后来的研究中,斯威尼发现,仅通过出生日期、性别和五位数字的邮政编码,就可以唯一识别美国87%的人口。
“看似匿名的数据不一定是匿名的,”她在给国土安全部隐私委员会的证词中说。
后来,计算隐私研究人员伊夫-亚历山大·德·蒙特乔伊(Yves-Alexandre de Montjoye)证明,根据手机位置数据揭示的行为模式,可以识别大多数人。通过分析15个月内150万人(无其他身份信息)的手机大概位置(根据最近的信号塔),仅依靠地点和时间四个数据点就可以唯一识别95%的人;只需要两个数据点就可以识别大约50%的人。
这四个数据点来自公开可得的信息,包括个人家庭住址、工作地点和标有地理位置的推文。
“位置数据相当于指纹。这些信息可能存在于各种各样的数据集中,并可用作一种全球标识符,”De Montague说。
对于有固定工作的人来说更是如此,这简直就是跟踪狂的梦想!
“你从家里到工作场所,然后下班回家,挺规律的。大多数人住在地址A,在地址B工作,”塞林格隐私咨询公司的主管安娜·约翰斯顿说。
她解释说,位置数据可以将某些人群置于风险之中,即使它们不会泄露个人的身份。比如健身应用Strava发布的公开地图,因为泄露了秘密军事基地内人员的位置和活动,无意中威胁到了国家安全。
2015年,De Cuvier证明,只需知道某个信用卡用户的几次购买交易,就有可能从数百万条“匿名”的收费记录中识别出这个人。
只要知道交易发生的店铺名称和位置,以及大概的日期和购买数量,德·蒙塔古只要通过三次交易就能识别出94%的人。这意味着有人可以在Instagram上寻找你和朋友喝咖啡的照片,关于最近购物交易的推文和一张旧收据,并可以将这些信息与你的整个购买历史进行匹配。
社交媒体上的一张照片可能会暴露你的整个交易历史。
德·蒙塔古(De Montague)等人反复证明,以归档记录为目的的数据(与个人相关的数据)不可能完全匿名,无论那些数据有多简化。
他说,“以前可能管用,但现在不管用了。”
至于如何防止这种侵犯隐私的行为,个人能做的其实很少。
普林斯顿大学计算机科学教授阿本德·纳拉亚南说:“我们的数据一旦泄露,通常会被永久保存。“一些公司专门整合不同来源的个人数据,建立虚拟档案,利用数据挖掘技术以各种方式影响我们。”
抛弃手机,只用现金支付,确实有助于减少你留下的个人资料碎片,但这样做是不现实的。
“如果你想融入社会,你不能将你传播的个人数据量限制在有意义的水平,”安全研究员克里斯·维克里说。
此外,个人很难对软件和服务收集数据的方式做出知情同意。如果重新识别某人的身份很容易,那么企业不共享个人身份信息的承诺就毫无意义。
“关键是良好的法律和适当的执法,”德蒙塔古说。他表示,欧盟的通用数据保**规是“朝着正确方向迈出的一步”。
约翰斯顿说:“隐私法的一个缺陷是,不能完全了解风险的消费者应该承担太多的责任。”“数据保管人(如政府、科研人员、企业)应该承担更多的法律责任。”
但是德·蒙塔古仍然很乐观。他说,大数据“潜力巨大”,对医学研究和社会科学尤其有益。
他建议,研究人员和政府不要发布庞大的数据集,而应该开发接口,允许其他人在不直接访问原始数据的情况下对数据提出需求。
“这背后的想法是不要失去对数据的控制,并确保对象保持匿名,”他说。
“隐私不是死的。我们需要它,隐私最终会得到保护。”
翻译:阿波罗
校对:李莉
编辑:满倩
来源:卫报