新闻中心

EEPW首页 > 智能计算 > 业界动态 > 谷歌的VaultGemma为保护隐私的人工智能性能树立了新标准

谷歌的VaultGemma为保护隐私的人工智能性能树立了新标准

作者: 时间:2025-09-15 来源: 收藏

有限责任公司的两大研究部门在大型语言模型隐私领域取得了重大进展,推出了一种名为 的新模型,这是世界上最强大的“差分私有法学硕士”。

这是一个基于 Google Gemma 架构构建的 10 亿参数模型,使用先进的数学算法来防止敏感数据泄露。差分隐私是一种数学算法,用于在共享数据时通过确保包含或排除单个信息不会显着影响整体结果来保护隐私。这是通过向数据集添加受控噪声来实现的,这使得任何人都难以识别其中的特定信息。

该技术长期以来一直用于受监管的行业,以保护敏感信息,并且在隐私方面也具有巨大的潜力。然而,事实证明,将其应用于法学硕士具有挑战性,导致模型稳定性和效率的权衡。 旨在克服这些问题,并支持使用差分隐私而不会受到任何性能影响。

无需权衡的 AI 隐私

由 Google Research 与 Google DeepMind 合作开发。研究人员在周五的一篇博文中表示,他们专注于消除差异化私人训练中固有的计算-隐私-效用权衡。

他们面临的挑战是,由于噪声增加和批量大小增加,根据计算资源和数据大小预测 AI 模型性能的传统扩展定律在应用差分隐私时站不住脚。因此,该团队设计了新的扩展定律,考虑到这些因素,以开发更大、更强大的私有法学硕士。

VaultGemma 使用差分隐私框架从头开始训练,以确保它不会记住或泄露敏感数据。研究人员表示,这是一个关键功能,可能会对金融和医疗保健等受监管行业的应用产生严重影响。

对 MMLU 和 Big-Bench 等多个基准测试的评估中,VaultGemma 展示了远远超过早期差分私有模型的性能水平,在不牺牲隐私的情况下,与具有相似参数数量的非私有 LLM 更具可比性。例如,结果表明,它在推理和问答等任务上可与早期的非私有 Gemma 模型相媲美,但没有任何暴露其训练数据的风险。

VaultGemma 的关键创新之一是研究人员调整其训练协议,以应对因添加噪声而引起的不稳定性。的研究显示了差分隐私如何改变法学硕士的学习动态。因此,差分私有模型需要更大的批量大小和数百万个示例来稳定训练。这通常意味着更大的计算需求,但研究人员想出了一些技巧来减轻这些成本,这可能会降低采用私有模型的门槛。

在架构上,VaultGemma 是一个基于 Google 的 Gemma 2 架构的纯解码器 Transformer 模型,具有 26 层并使用多查询注意力。研究人员表示,关键的设计选择之一是将序列长度限制在仅 1,024 个标记,这有助于管理私人训练的密集计算要求。该开发以一套新颖的“DP 缩放法则”为指导,该法则提供了一个框架来平衡计算能力、隐私预算和模型效用之间的权衡。

推进私有

谷歌的研究人员表示,他们正在 Hugging Face 和 Kaggle 上的开源许可下提供 VaultGemma 及其权重和代码库,以实现对私人人工智能的民主化。这一步骤与谷歌的惯常方法形成鲜明对比,谷歌拥有最强大的专有法学硕士,例如 Gemini Pro 人工智能“黑匣子”的经典示例。

开源 VaultGemma 的决定可能是谷歌的一项战略举措,旨在试图在不断变化的法规之前在人工智能隐私领域建立领先地位,并加速数据敏感性问题通常阻碍创新的行业。研究人员表示,谷歌的差分隐私扩展法应该适用于更大的私有法学硕士,可能多达数万亿个参数。随着企业努力解决数据隐私问题,VaultGemma 可以作为安全人工智能创新的蓝图。

谷歌已经在研究与主要医疗保健提供商合作的可能性,并设想使用 VaultGemma 来分析敏感的患者数据,而不会有任何隐私泄露的风险。

VaultGemma 也可能对道德人工智能产生影响。谷歌研究人员表示,通过拒绝透露其训练数据,该模型降低了错误信息和偏见放大的风险,这可能有助于进一步推进负责任的人工智能模型。



评论


相关推荐

技术专区

关闭