来源:数据实战派

图片出处:unsplash.com 图片出处:unsplash.com 

通常,网页浏览器会记录用户访问过的网站列表,即网页浏览历史记录,这对很多人来说也是特别熟悉的日常之一。

但是,如果网页浏览历史记录可以用来识别每个个体呢?我们下面要介绍的研究,恐怕会让你对这件习惯的事情有新的认识。

就在本月举行的 USENIX 会议上,Mozilla 的研究人员发现了其中的异样:他们对 5.2 万名(事先同意)的Firefox 用户在两周内的浏览历史数据集进行了分析,结果显示,48,919 份浏览资料具有可区分性,即 99% 的浏览历史是独一无二的。超过八成用户可通过浏览历史被识别身份。而且,只需要考虑 50 个最常用网站就足矣。

如此看来,尽管人类还没有成为 cyborg,但你的网页浏览记录,正在从“数字脚印”变成“互联网指纹”。

“互联网指纹”的敏感性

Mozilla 此项研究名为“Replication: Why We Still Can‘t Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories[1]“ ,其实是对2012年一项研究的进一步拓展。

此次论文。图片出处:usenix.org此次论文。图片出处:usenix.org

在 2012 年的研究中,研究者首先建立了一个测试网站,并使用 CSS 代码从 6000 个域名列表中识别出参与者访问过的网站。当时的研究结果显示,基于这 6000 个域名,参与的受试者,97%都形成了非常具有独特性的浏览历史,仅此数据就可以用来追踪确认这些参与者。

而 Mozilla 这一次研究所采用的数据则更精确,因为它收集了 5.2 万名参与者的全部浏览记录,数据包括对 66 万个独特域名的 3500 万次网站访问,也是该领域规模最大的一次研究。

参与者首先和 Mozilla 团队分享他们的浏览历史,然后,Mozilla 团队开始试验他们是否能从大量数据中重新识别出这些用户。令人惊讶的是,99%的浏览记录被发现具有独特性,能与用户“对号入座”。

有趣的是,2012年和2020年的两次研究,还证明了时代在不断“进步”:八年前,对于用户访问量最大的前50个网站,识别用户的准确率为38%,对于500个网站的数据集,准确率为70%;今天,以50个网站为基础的重新识别准确率为50%,以150个网站为基础的重新识别准确率为90%。

图片出处:usenix.org图片出处:usenix.org

事实上,网页浏览历史的敏感性不难理解,因为用户偏好通常是固定的,一段时间的浏览习惯也会比较稳定,网页历史记录往往不会随着时间的推移而发生重大变化,而且某种程度上,它们能传达用户的丰富信息,甚至能捕捉用户的心理或用作人口统计数据。

由于网页历史记录的独特性和稳定性,在某些方面,它们确实类似于生物识别数据。

Mozilla 团队表示,“通过网页和第三方可见的浏览历史记录重新识别用户是充分可行的,而浏览历史汇总对个人隐私的潜在威胁也得到了证明”。

网页浏览记录会被明确划为“个人信息”吗?

更坏的消息是,团队观察到,众多互联网机构正无孔不入地收集这类信息,从而利用浏览记录建立用户档案或者作为标记符,在整个互联网上追踪用户及用户行为。

研究团队发现Alphabet、FaceBook理论上有着最高的访问记录识别率,图片出处:usenix.org研究团队发现Alphabet、FaceBook理论上有着最高的访问记录识别率,图片出处:usenix.org

而且和 2012 年相比,现在用户的访问历史记录规模又更大了,在过去十年中,网站运营商和广告商可获得的网页浏览历史数据的数量明显增加了,几乎所有网络都会记录用户的访问历史,例如搜索引擎、社交媒体、视频网站等网络平台等,几乎都能够看到自己的浏览历史,平台则会收集、利用这些数据,以提高自身服务,并进行更精准的广告投放。像谷歌、Facebook 这样的流量帝国,处理这些信息的次数和程度肯定会更多。

隐私研究人员、2012年论文作者之一的 Lukasz Olejnik 一语道破之:这项最新研究的发现能带来更深远的影响,因为它证实了网络浏览历史所具有的可被用于牟利的属性。

如果根据这些信息有可能从许多人中识别出特定的用户,这些信息也就具有了个人数据的属性。

目前,全球最权威的数据隐私法规之一《通用数据保护条例》(General Data Protection Regulation,GDPR),给出了判断某数据信息是否属于个人数据的技术标准:

(26) 经过假名化(pseudonymisation)处理的个人数据(如果结合其他数据)仍然有合理的识别到具体自然人的可能性,属于GDPR定义的个人数据。而已经匿名化(anonymous)的数据将无法识别数据主体,因此不属于GDPR定义的个人数据。需要注意,假名化处理是GDPR推荐企业采用的个人数据保护方式之一,但经过假名化处理的个人数据仍然属于GDPR管辖的范畴。

简而言之,当该数据能识别出个人时,这类数据将自动受该法规(GDPR)管辖。

而在我国,与个人数据隐私保护最直接相关的法律——《个人信息保护法》——尚未正式出台,但2019年10月发布的专家意见稿中,也已将“网络浏览历史”划入个人信息范围。

围绕这个话题,2020年国内也有一起非常典型的案例:爱奇艺的超前点播多重收费机制被其用户吴先生起诉,在败诉之后,又被指侵犯隐私,因为爱奇艺在案件庭审中提交了原告用户吴先生的观影记录,目前,对该案件的的审理还在进行中。无论最终结果如何,互联网平台的权限边界都应该退一退了。