干货 | 互联网广告数据的匿名化方案研究

发布人：数据派THU 时间：2023-01-19 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

以下内容整理自清华大学《数智安全与标准化》课程大作业期末报告同学的汇报内容。

第一部分：背景介绍一、匿名化必要性

互联网广告具有非常重要的商业价值，同时也是涉及数据处理十分密集的行业，出现了操作规范化、个人信息保护和商业数据安全等一系列问题和挑战，而个保法中规定个人信息匿密化后不再属于个人信息，则为平衡个人信息保护和数据利用提供了一个窗口。二、匿名化困境

匿密化的概念已经被广泛提及，但是有关匿密化的标准仍然存在很多争议，甚至有学者认为应当废除匿名化的概念。网安法和个保法中以法律的形式确立了匿密化制度，真正有意的讨论应该是如何将匿名化制度落实到个人信息保护实践中去。为此，我们的方案首先从法律法规、司法实践理论等多个维度进行调研来试图回应这个问题，然后再针对互联网广告领域的数据利用的困境来提出匿密化的方案。第二部分：匿名化现状调研一、法律法规国家标准

在法律法规标准方面，不同国家采用不同的概念，我国相对折中，对于“去标识化”和“匿名化”进行了区分，其中操作性更强的去标识化已经有了实施或者将要实施的国家标准。二、匿名化技术

在匿名化技术方面，我们认为匿密化可以视为去标识化的一种极端形态，所以二者采用的技术是相通的。三、司法实践

在司法实践方面，个保法实施刚满一年，有关匿名化直接的指导案例还没有，从中有两处发现：其一，可以以间接识别性为匿名化处理提供指引，是否达到了匿名化程度，处理后的信息是否具有可识别性；其二，法院通常会结合场景对于可识别性进行动态的判断。四、法律实证研究

在法律实证研究方面，匿名化具有动态性的特征，学者们也试图提出匿名化的方案或者标准。第三部分：互联网广告调研一、法规与标准

国家目前已经明确平台可以通过用户个人信息来进行用户画像，并进行定向的广告投放。在标准方面，《移动互联网应用程序（App）收集个人信息基本要求》中提出了App收集个人信息的基本要求，并给出常见服务类型必要个人信息范围以及使用要求，有较大的参考价值。同时，在互联网广告领域也有一批标准已经发布或正在制定，其中与我们选题直接相关的是《互联网广告数据匿名化实施指南》，该行业标准目前处于报批稿的状态。二、企业案例

三、数据采集与个性化推送

不同平台的用户画像因为服务类型不同，收集的数据也存在差异。数据量和数据类型十分广泛，甚至存在在设备应用程序间追踪用户行为的代码，这些虽然有利于提高用户画像的精确度，广告投放的准确度，同时也带来了正当性、合法性的问题，Twitter因此收到了巨额的罚款。四、匿名化积极尝试

在匿名化方向上，互联网企业也在采用积极的策略，比如多方安全计算、差分隐私等技术来提高广告数据的安全性。第四部分：匿名化方案一、数据类型化研究数据收集使用限制

互联网广告投放业务一般属于“定向推送”类扩展功能服务，收集的数据可以分为用户数据类和业务数据类两类。前者是指用户直接向平台提供的数据，后者可以进一步分为业务观测数据和业务推测数据。

在明确数据类型的基础上，需要对数据收集、使用进行限制，具体可以分为原则性的要求、个人敏感信息的限制、用户同意以及用户画像属性的限制。二、匿名化应用选择指引匿名化评估标准

我们的匿名化方案基于场景动态的匿名化策略，首先根据前面提到的数据类型，以及是否与第三方共享形成表中所示的映射关系，例如与第三方共享的数据采用的标准更为严格。具体这些标准如何确定，还与匿密化模型选择有关，如K模型和差分隐私模型的评价指标不同。我们还建议平台对匿密化方案至少每半年进行一次重新评估，根据政策法规要求和技术发展变化来规划相关的策略，以实现数据合规，并控制实际损害和可能风险。右边是具体的匿名化流程，以技术保障评估规制过程控制，来确保匿名化过程的有序进行。

我们的目的并不在于证明数据完全是不可识别的，而在于通过定期的动态评估模式来确保数据风险，评估工作主要从技术和合规两个维度展开，在技术评估方面包含静态基于重标识风险的分级的评估和动态基于攻击者攻击测试评估。以上就是我们整个报告的内容！

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

博客专栏

干货 | 互联网广告数据的匿名化方案研究

相关推荐

技术专区