您的位置: 旅游网 > 时尚

大数据环境下的隐私保护技术

发布时间:2019-09-22 18:43:42

  大数据环境下的隐私保护技术

  随着互联技术的飞速发展,整个社会被强行推入“大数据”时代。不管人们是否愿意,我们的个人数据正在不经意间被动地被企业、个人搜集并使用。个人数据的络化和透明化已经成为不可阻挡的大趋势。过去,能够大量掌控公民个人数据的机构只能是持有公权力的政府机构,但现在许多企业和某些个人也能拥有海量数据,甚至在某些方面超过政府机构。这些用户数据对企业来说是珍贵的资源,因为他们可以通过数据挖掘和机器学习从中获得大量有价值的信息。与此同时,用户数据亦是危险的“潘多拉之盒”,数据一旦泄漏,用户的隐私将被侵犯。近年来,已经发生了多起用户隐私泄露事件,公民的个人的隐私数据保护遇到了严峻的挑战。

  20世纪最着名的用户隐私泄漏事件发生在美国马萨诸塞州。90年代中叶,为了推动公共医学研究,该州保险委员会发布了政府雇员的医疗数据。在数据发布之前,为了防止用户隐私泄露,委员会对数据进行了匿名化处理,即删除了所有的敏感信息,如姓名、身份证号和家庭住址等。然而,来自麻省理工大学的Sweeney成功破解了这份匿名化处理后的医疗数据,能够确定具体某一个人的医疗记录。匿名医疗数据虽然删除了所有的敏感信息,但仍然保留了三个关键字段:性别、出生日期和邮编。Sweeney同时有一份公开的马萨诸塞州投票人名单(被攻击者也在其中),包括投票人的姓名、性别、出生年月、住址和邮编等个人信息。她将两份数据进行匹配,发现匿名医疗数据中与被攻击者生日相同的人有限,而其中与被攻击者性别和邮编都相同的人更是少之又少。由此,Sweeney就能确定被攻击者的医疗记录。Sweeney进一步研究发现,87%的美国人拥有唯一的性别、出生日期和邮编三元组信息,同时发布事实上几乎等同于直接公开。

  2006年,美国公司(AOL)公布了超过65万用户三个月内的搜索记录,以推动搜索技术的研究。AOL同样对发布的数据进行了匿名化处理,即用一个随机数代替用户的账号。随后,《纽约时报》成功将部分数据去匿名化,并公开了其中一位用户的真实身份。这起隐私泄漏事件引起了人们的广泛关注,美国公司因为此事件在北加州地方法院被起诉。美国飞公司曾(Netflix)举办了一个推荐系统算法竞赛,发布了一些“经过匿名化处理的”用户影评数据供参赛者测试,仅仅保留了每个用户对电影的评分和评分的时间戳。然而,来自德州大学奥斯汀分校的两位研究人员借助公开的互联电影数据库(IMDB)的用户影评数据,获得了IMDB用户,并不比在Netflix上的全部电影浏览信息(包括涉及敏感题材的电影)少。为此,2009年Netflix遭到了4位用户的起诉,也不得不取消了该竞赛。

昆明文学网
野史秘闻
手机品牌
猜你会喜欢的
猜你会喜欢的