白盒的意思(威龙白盒什么意思)

  • 白盒的意思(威龙白盒什么意思)已关闭评论
  • A+
所属分类:八字成语
白盒的意思(威龙白盒什么意思)

引用

Leino K , Fredrikson M . Stolen Memories: Leveraging Model Memorization for Calibrated White-Box Membership Inference[J]. 2019.

摘要

成员推理(MI)攻击揭露了这样一个事实,机器学习算法有时会通过学习模型泄露训练数据的信息。在这项工作中,我们研究了在白盒设置中的成员关系推理,以开发模型的内部结构。利用关于深度神经网络中如何发生过拟合的新见解,我们展示了模型对特征的特殊使用如何为白盒攻击者的成员身份提供证据,并证明这种攻击优于先前的黑盒方法。我们发现,以前的攻击往往不能提供有意义的基础,以此来自信地推断成员,而我们的攻击可以有效地校准为高精度。最后,我们研究了流行的针对 MI 攻击的防御方法,发现了以下问题:

(1) 较小的泛化误差不足以防止对真实模型的攻击

(2)虽然较小的 ε 微分隐私降低了攻击的有效性,但这通常会对模型的准确性造成重大损失;对于实践中有时使用的较大 ε,攻击可以达到与无保护模型几乎相同的精度。

1 引言

当机器学习算法应用于私人训练数据时,产生的模型可能会通过其行为或表示不知情地泄露有关该数据的信息。成员推理(MI)攻击的目的是确定用于构建模型的训练集中是否存在给定的数据点。

到目前为止,大多数 MI 攻击采用所谓的影子模型方法。这种方法将攻击转换为一个有监督的学习问题,在这个问题中,给对手一个数据点和它的真实标签,并旨在预测一个表示成员状态的二进制标签。

Nasr 等人发现,将阴影模型方法简单地扩展到白盒设置并不能产生有效的攻击;在本文中,我们提出了一种有效的白盒 MI 攻击,该攻击无需访问目标模型的任何训练数据。至关重要的是,我们对模型中过度拟合如何发生这件事有更深入的理解,并利用它来创建攻击。

寻找成员资格的证据:我们从直观的观察开始,虽然过度拟合会导致隐私问题,因为模型“记住”训练数据的某些方面,但这并不一定体现在模型的输出行为中。相反,它很可能表现在模型使用特性的方式上——包括那些明确给出的和在内部层学习的特性。

校准置信:到目前为止,最简单的 MI 攻击(我们称之为“原始”攻击)是基于这样一个事实:泛化错误必然会导致成员资格漏洞。给定一个数据点和它的真实标签,攻击者运行这个模型并观察它预测的标签是否正确。如果是,那么攻击者就得出结论,这个点在训练数据中;否则,该点被假定为非成员。在许多情况下,这和影子模型攻击一样有效。作为一种实用的攻击方法,朴素方法有一个明显的缺点,即使它看起来产生了合理的准确性,但是它并没有为攻击者提供一个正面推断的信心:这个点可能是一个训练集成员,或者它可能只是被正确地分类了。

就像朴素攻击一样,影子模型攻击通常不会产生一致有用的信息来描述一个积极推断是正确的可能性。因此,我们提出一种有效的攻击应该具有进行自信推断的能力,强调了对攻击的高精度要求。为此,我们证明了伴随我们的攻击做出的推断的置信度分数可以用来精确地校准其精度。

防御评估:常识推测,大的 ε-DP 值可以提供一个实际的防御,特别是如果隐私预算分析只给出 ε 的一个松散的边界。不幸的是,我们发现事实并非如此。我们使用矩会计方法对用(ε,δ)差分隐私训练的深度模型进行了攻击测试,发现与在非私有模型上的有效性相比,使用较大 ε 的训练有时只对我们的攻击进行了很少的防御。这些结果表明,实际的 MI 攻击可以作为一个启发式的措施,以评估隐私学习中的参数选择,同时我们也强调需要在这一领域进行更多的研究。

2 背景

2.1 监督学习和目标模型

成员推断攻击作用于特定的目标模型。在这项工作中,我们考虑使用以前馈神经网络进行表示的目标模型;

我们假设内层使用 ReLU 激活:relu(x) = max(0,x)。我们假设最终层对于每个标签都有一个组件,并使用 softmax 激活,softmax 函数的使用是多类分类机器学习的标准。以这种方式训练的模型为每个标签产生置信度得分,而置信度可以解释为概率。

在我们考虑的最简单的情况下,目标模型由只有 softmax 激活的单层组成,并且是线性 softmax 回归模型。我们有时会通过参数化来引用这种类型的模型,我们的方法会推广到深层网络,其中目标模型有多个连续的内部 ReLU 激活层,后跟一个 softmax 输出层。

2.2 成员推理

首先,从0,1中统一随机选择一个值 b。如果 b = 1,那么给攻击者 A 一个来自总体的实例(x,y);否则,如果 b = 0,则从用于生成目标模型 g 的训练集 S 的元素中随机均匀地采样(x,y)。然后,攻击者试图预测给定了(x,y)的 b 和一些由威胁模型确定的附加知识 aux(g)。

威胁模型

威胁模型

先前的工作主要集中在所谓的黑箱模型上,在这项工作中,我们用白盒访问代替了黑盒访问。攻击者不仅能够查询目标模型,还可以访问学习算法生成的、模型所有者用来推断新数据的 g 的精确表示。

这种威胁模型反映了公共可用模型的增长数量,以及白盒表示可能通过其他方式(例如,安全漏洞)落入对手手中的事实。此外,即使在白盒攻击的要求对对手来说可能不切实际的情况下,发起更强大攻击的能力对防御者来说可能是有用的,因为它提供了对潜在威胁的更保守的估计。

矩阵

攻击的准确性是 A 的预测等于 b 的概率,因为随机猜测的对手达到了 50%的准确性,我们通常会选择去描述攻击的优势,由等式 1 根据攻击 A 给出。优势将准确性缩放到 50%的基线,以产生-1 到 1 之间的度量。

白盒的意思(威龙白盒什么意思)

我们也将精度(等式 2)视为攻击者的关键需求。为了让攻击者得出有把握的推论,精确度必须比 1/2 大。如果没有点被预测为成员,那我们将精度定义为 1/2。

白盒的意思(威龙白盒什么意思)

最后,我们将召回(等式 3)作为一个指标纳入我们的评估中。

白盒的意思(威龙白盒什么意思)

逻辑攻击模型

为了获得良好的精确度,我们考虑了通过预测产的生置信度得分的攻击。因此,我们可以将成员推理视为二元逻辑回归问题,其中逻辑函数对二元因变量(即隶属度或非隶属度)的置信度进行建模。用于二进制分类的逻辑函数的使用是机器学习的标准,并且已经被应用于先验成员推断攻击。

3 白盒成员推断

3.1 攻击概述

我们的攻击源于一种直觉,即当模型过度使用其训练数据时,它们可能会在测试时通过异常行为泄露成员信息。而对记忆是如何发生的更细致入微的观察会产生新的见解,这些见解可用于攻击。

模型使用特征来区分类别,虽然一些特征可能是真正有区别的,但是其他特征可能仅仅是巧合地在特定的训练集上有区别。当模型应用后一种类型的特征进行预测时,这可以被认为是过度拟合,与训练数据一致的特征的显著性本身就具有暗示性。

虽然上述可能不是成员资格的结论性证据,但它可以与实例上模型行为的其他方面相结合,以比仅使用黑盒信息更有把握的方式做出最终决定。要了解为什么会出现这种情况,需要考虑在不同样本上训练的另一个模型,而黑盒攻击者将无法区分这些情况,因此无法通过检查模型对内部特征的使用来获得基于特征的证据。

本质上,特征在训练数据中的分布不同于它们在真实分布中的分布,可以提供支持或反对成员资格的证据。我们的攻击通过导出一组描述特殊特征使用的参数来工作,然后使用这些参数来构建逻辑攻击模型。

3.2 一种贝叶斯最优攻击

我们从展示如何在数据按照已知分布进行分布的理想化环境中发起这种基于证据的攻击开始。我们表明,这种情况下的攻击会导致对来自该分布的点进行贝叶斯最优成员预测,这表明即使违反了这里所做的严格假设,该方法也可能是一种强启发式方法。

生成性假设

首先我们假设 D*由参数给出,u*,Σ*,和 p*=(p*1,...,p*c),使得标签 y 按照带有参数 p*的分类分布进行分布,并且特征 x 是每个标签具有均值 u*和协方差矩阵 Σ*的多元高斯分布。此外,假设 Σ*是对角矩阵,即 x 的分布满足特征独立于类的朴素贝叶斯假设。

我们用 D 表示训练数据 S 的经验分布。设 p 为 S 的经验类先验,u 为 S 中特征的经验均值,Σ 为 S 中特征的经验协方差矩阵,我们作出类似的假设,即 Σ 为对角矩阵,经验分布函数可建模为正态分布 N(u,Σ)。

攻击模型

考虑两个高斯分布,η?= N (u?,σ?)和 η= N(u,σ)。假设从任一分布中得出的先验概率为 1/2,我们可以通过求解这个不等式中的 x 来构建一个简单的模型,预测 x 是否是从 η 而不是 η*中得出的。当方差 σ*和 σ 相同时,这产生了作为 u*-u 和 σ*函数的线性决策边界。

设(X,Y)是从任意一个 D 中抽取的随机变量,从 D 中抽取的概率是事件(X,Y)∈S。因此,Pr[T] =t。根据第 2 节中给出的 MI 定义,我们将假设 t =1/2。我们想要一个攻击模型 m(x)来表示点(x,y)是训练集 s 的成员的概率。

因为我们知道 t、D*和 D 的参数,所以我们可以通过应用 Bayes 规则和用代数方法将结果处理成对数赔率的拟序函数来导出这个量的估计量。然后我们利用朴素贝叶斯假设,把观察 x 的概率写成独立观察 x 的每个特征的概率的乘积。如定理 1 所述,当 σ=σ*时,目标特征值的结果是线性的。

定理 1

白盒的意思(威龙白盒什么意思)

总结

定理 1 展示了如何将这个证据编译成一个线性攻击模型,当两个分布都精确已知时,就已经实现了成员推断的贝叶斯最优化。

3.3 从代理模型中获取 MI 参数

当我们假设白盒访问目标模型时,我们不能期望它会显式地建模;事实上,g 通常由权重参数化,使得分布参数欠定。最后,D*和 D 可能违反朴素贝叶斯假设,或者难以直接参数化。

为了测量这些差异,我们使用了一个代理数据集 S,它是从 D*中提取的 i.i.d 来训练一个代理模型 g,然后将其与 g*进行比较。控制学习算法产生的学习权重差异,而不是 D*和 D 之间的差异, 代理模型使用与 g 相同的算法和超参数进行训练。当可用数据有限时,可以使用引导采样在许多不同的 S 上重复此过程。

3.4 学习推广到任意分布

查看 bayes wb 攻击的一种方法是,它通过测量目标模型的权重与代理模型近似的真实分布的理想权重之间的位移来对成员资格预测进行加权。在高斯朴素贝叶斯假设下,元素减法对于隶属度推断是最优的,但对于其他分布,不同的位移函数可能更合适。更一般地说,我们可以将位移函数表示为神经网络,并使用手头的任何数据对其进行训练。 图 1 说明了这种方法,我们称之为广义 wb 攻击。

白盒的意思(威龙白盒什么意思)

图 1:广义攻击模型的说明

当 d 被元素应用于权重对时,我们将 D 建模为一维卷积神经网络,其中初始层的内核大小和步长为 2,后续层的内核大小和步长为 1。

为了了解 d 的权重,我们将 S 分为一个“In”数据集S1 和一个“out”数据集S0。我们在 s1 上训练阴影目标模型 ?g,在 S0 上训练代理模型 ?g*。然后,我们创建一个带标签的数据集 T,最后,我们通过训练找到对于 D 来说使 T 上的一般攻击的 0-1 损失 L 最小化的参数。算法 2 中描述了此过程。

白盒的意思(威龙白盒什么意思)

3.5 学习推广到任意分布

回想一下“原始”攻击,该攻击预测当且仅当 x 被正确分类时,实例 x 才是训练集的成员。但由于大多数神经网络没有得到很好的校准,这使得它很难获得信任。

在高斯朴素贝叶斯假设下,MIS 给出的概率是精确的,并且这种方法的校准没有问题。实际上,有两个主要问题。首先,训练集是有限的,因此当提高阈值以获得更高的精度时,召回率将在某个点降至零。第二,如果违反了生成性假设,置信度可能不符合确切的概率。

校准所需精度/召回权衡的决策阈值需要访问训练集 S。我们可以规定为了校准的目的,将 S 的元素分类为非成员,并使用一个启发式方法。算法 3 对此进行了详细说明。

白盒的意思(威龙白盒什么意思)

4 深度模型的成员推理

在本节中,我们将上一节的推理扩展到深层模型。然而,当深度网络学习新的中间表示时,给定索引的内部特征的语义意义不一定与另一个模型中相应内部特征的语义一致。一般来说,两个模型必须一致的唯一特征是模型的输入和输出,因为培训过程没有定义这些特征

考虑这样一种方法,它学习内部特征的属性,这些属性指示涉及阴影模型的激活、梯度或任何其他数量的成员。任何此类属性都必须引用阴影模型中的特定内部特征,它们也不可能像在阴影模型中一样位于网络中的同一位置。这就是为什么以前的白盒攻击需要大量目标模型的训练数据。

要绕过这一限制,必须在阴影模型和目标模型中的内部特征之间构建映射,或者在阴影模型中固定属性表示以保留两者之间的语义。

4.1 深部模型的局部线性拟合

我们用一个切片<g,h>来定义局部线性拟合,对于网络顶层的切片,g 只是一个作用于模型其余部分计算的特征的线性模型。在这种情况下,不需要局部近似。

对于网络中较低的切片,g 不再是线性的,但我们可以通过构造一个与该点一致的线性模型来近似 g 在特定点利用其特征的方式。

对于这种近似,我们建议使用影响度量,即(1)对内部特征有效,(2)根据特征对模型输出的个别边际贡献对特征进行加权,(3)满足线性一致性,以及(4)相对于所选基线有效。我们可以使用特征的影响代替方程 7 中相应的权重,同时获得相同的结果。然而,为了使这种替换在特定的内部点 z=h(x)上起作用,我们还要求 g(z)=W*z+b,如果 x 对基线点 z 有效,则如下所示。

白盒的意思(威龙白盒什么意思)

满足前三个特性的唯一影响度量是内部影响,由以下等式给出。请注意,此度量不是在单个点上操作,而是在感兴趣的分布 P 上操作。

白盒的意思(威龙白盒什么意思)

我们可以将算法 1 和算法 2 中的攻击应用于深度网络的任意层,方法是在攻击应用到的每个点将网络的剩余部分局部近似为线性模型。然而,我们的攻击在目标模型的权重中是参数化的,因此只需要一个单一的攻击模型。

4.2 结合层

上一节的结果允许我们利用目标模型使用的每个学习表示中的过度拟合来进行成员资格推断。但由于模型的内部表示在层之间不是独立的,因此我们使用一个元模型,学习如何组合各个分层攻击的逻辑输出。

在为通用 wb 攻击构建元模型时,我们可以使用位移度量 d 联合训练 M0,而不是先在每一层上学习通用 wb 攻击。对于每一层我们还使用了一个单独的距离度量 d。

5 评估

在本节中,我们旨在使用几个真实和合成数据集上的实证结果回答关于第 3 节和第 4 节中描述的攻击的几个问题。

我们对第 3 节“超参数选择”中的数据假设和数据量的攻击有多敏感?

某些层是否比其他层泄漏更多的训练信息?

相对于之前对真实数据的攻击:(1)bayes-wb 和一般 wb 攻击在总体准确性方面是否更有效?(2) 校准步骤是否始终导致更可靠的推断?(3) 我们的攻击在广义模型上有效吗?

5.1 实验设置

数据集:我们在合成数据和来自真实数据的九个分类数据集上进行了实验。为了便于与以前的工作进行比较,我们还包括了三个常见的图像数据集(MNIST、CIFAR10 和 CIFAR100)。

合成数据由 10 个类别、75 个特征和 400、800 或 1600 条记录生成,每个类别的记录数相等。

分类数据集中包括成人、Pima 糖尿病;威斯康星州乳腺癌、肝炎、德国信贷、野外标记人脸;MNIST、CIFAR10 和 CIFAR100。

目标模型:我们用来进行实验的目标模型包括线性模型、多层感知器和卷积神经网络。我们仅对合成数据使用线性模型。对于非图像真实数据,我们使用多层感知器(MLP),具有一个隐藏层和 ReLU 非线性,并在 Keras 中实现。对于具有 n 个特征的数据集,我们使用 2n 个隐藏单元,然后是一个 softmax 层,每个类一个单元。对于图像数据,我们使用了一种基于 LeNet 的 CNN 架构,有两个卷积层,分别带有 5×5 个滤波器和 20 和 50 个输出通道,然后是一个完全连接的层,有 500 个神经元。每个目标模型都是一对,包含一个体系结构和一个数据集。

方法:在评估每次攻击时,我们将数据随机分成三个不相交的组:训练、测试和保留。目标模型是在训练组上训练的,而攻击只允许使用保留组。对训练组和测试组的攻击模型预测进行评估。每个实验在数据分割的不同随机抽样上重复 10 次,并对结果进行平均处理。

攻击方法:在整个评估过程中,我们评估了四种不同的攻击:naive、bayes wb、general wb 和 shadow bb。

对于 bayes wb 攻击,我们在保留组的随机样本上训练了 10 个代理模型,并在每个点上取其近似权重的平均值,以增加鲁棒性。在攻击 MLP 模型时,我们使用算法 1 在 MLP 的最后一层执行攻击。在攻击 LeNet 模型时,我们使用了一个元攻击模型。

对于一般 wb 攻击,我们构建了一个攻击模型,该模型学习网络每一层的位移函数 D',并将结果与元攻击模型 M 相结合。

阴影攻击是指黑箱阴影模型攻击。在每个实验中,阴影 bb 攻击使用 10 个阴影模型进行训练,这些阴影模型对来自保持组的 10 个样本进行训练。

5.2 对假设的敏感性和超参数

图 5 通过比较使用代理模型的 bayes wb 攻击和“全知”攻击以及训练和一般分布的知识,展示了代理模型在我们的攻击中的有效性。我们的攻击平均达到全知攻击优势的 84%,这表明代理模型能够大致捕获一般分布,以便检测目标模型对特征的特殊使用。

图 2 还显示了对高斯朴素贝叶斯数据的一般 wb 攻击的准确性。通过检查位移网络的权重,我们发现通用 wb 几乎准确地学习了元素减法,这显示了其学习最优位移函数的潜力。

白盒的意思(威龙白盒什么意思)

图 2:贝叶斯 wb 和一般 wb 攻击与全知攻击的比较

调整通用 wb 攻击。图 3 显示了使用各种 D 函数和 M 架构获得的验证精度示例,以及相应的测试精度。我们看到,测试精度与验证精度非常接近,两个指标的最大值出现在同一架构中。这表明验证精度是测试精度的一个相当好的指标,而这使其成为超参数调整的有用工具。

白盒的意思(威龙白盒什么意思)

图 3:攻击的验证和测试准确性

5.3 数据缩放

由于一般 WBA 攻击涉及多个超参数,因此以可靠的方式调整这些参数可能会很有用。

我们预计,对于足够大的训练集,任何 MI 攻击的成功率都会下降。相反,对于较小的训练集,我们可能期望有机会获得更好的 MI 性能。事实上,根据这一观察结果,我们发现即使是全知攻击,其准确性也与数据集大小成反比。

我们观察到,随着越来越多的数据可用于训练,攻击的优势减弱,在整个数据集上变得非常小。这可能表明成人数据集足够大,可以通过标准培训获得的中等大小的 MLP 模型防止任何重大信息泄漏。

随着数据集大小的增加,我们在某种程度上看到了相同的下降趋势,尽管存在更多的噪声,并且一些图像数据集提供了显著的例外。而这可能是由特征数量、网络容量和数据集之间的泛化错误的变化引起的。

5.4 结合层

我们描述了一种元攻击,它结合了每层上单个攻击的输出。图 4 显示了每一层上 bayes 攻击和每一 LeNet 目标模型上元攻击的准确性。

在每一种情况下,元攻击都能大大优于任何单个攻击,这表明它从每一层接收到的信息并非完全冗余。此外,这表明在整个模型中,信息泄漏发生在由层学习的表示中,也就是说,每一层在有关训练数据的信息泄漏中都起着一定的作用。

白盒的意思(威龙白盒什么意思)

图 4:贝叶斯 wb 攻击和组合元模型的准确度比较

5.5 与以前工作的比较

最后,我们将我们的方法与以前的工作进行比较,即 shadow bb。特别是,我们比较了(1)准确性、精确性和召回率方面的性能;(2)当用于更高精度的校准时,攻击置信度的可靠性。

简而言之,我们的结果表明,bayes wb 和 general wb 的性能都优于 shadow bb,并且可以更可靠地进行校准,从而为攻击者提供可靠的推断。

性能:图 5 显示了 naive、bayes wb、general wb 和 shadow bb 的准确性、精确度和召回率。我们发现 bayes wb 和 general wb 始终比 naive 和 shadow bb 更精确。

通常,naive 或 shadow bb 可以获得最高的召回率,但我们注意到这两种方法的召回率都较低;至少在 naive 的例子中,这仅仅是因为大多数模型都有很高的训练精度。我们关于 shadow BB 性能的结果与先前报告的 shadow BB 在先前工作中用于评估的数据集上的结果大致一致。

白盒的意思(威龙白盒什么意思)

图 5:贝叶斯 wb 和普通 wb 与原始和 shadow bb 的比较

校准:成员推断攻击的关键要求之一是精确性。为了精确校准攻击,攻击输出的置信度必须是信息化的。我们发现增加 bayeswb 和一般 wb 攻击的保留率对精确度有积极的影响。

在所有卷积模型上,通用 wb 能够校准到 75%以上的精度。值得注意的是,这包括在 MNIST 上训练的模型,该模型只有 1。1%的泛化错误。这意味着隐私侵犯甚至对广义模型也是一种威胁,因为我们的攻击能够自信地识别训练集成员的子集。

良好广义模型的性能:虽然我们用来评估攻击的一些模型的泛化误差为 10%或更大,但我们也评估了几个数据集,在 PD 和 BCW 上,我们的攻击仅略优于 Naive,而在 MNIST 和成人上,我们的攻击表现要好得多:在成人训练的模型上,general wb 取得了优势。另一方面,影子 bb 在所有这些数据集上表现不佳,成人除外,其优势通常不到 2%。最后,我们注意到 bayes wb 对合成数据模型的攻击,尽管它的模型的泛化误差为零,但仍达到了 60%的准确率。更大程度的过度拟合使对手更容易发动攻击,但我们对广义模型的攻击相对成功表明,即使模型没有通过测试集上的错误预测泄露信息,白盒信息也很有用。

shadow-bb 和原始攻击结果的相似性:图 10 显示,shadow bb 的性能通常与 naive 相当,甚至更差,特别是在非常通用的目标模型上。在具有显著过度拟合的深层模型上,shadow bb 的表现略好于 naive,但我们发现其行为和 naive 并没有显著差异;

6 防御

6.1 差别隐私

差异隐私(DP)通常被视为私有模型的黄金标准,因为使用差异隐私训练的模型具有可证明的防止成员身份推断的保证。

我们使用 Tensorflow Privacy library,一种矩量会计方法,它保证了(ε,δ)-差异隐私,以此来研究我们攻击受保护模型的实际效果。

我们注意到,正如预期的那样,当 ε 降低时,对手的有效性迅速下降。然而,当 ε 较大时,我们的攻击偶尔在差异私有模型上的性能与在未定义模型上的性能基本相同。这些发现表明,大 ε 差异隐私的实际好处不能想当然;一般来说,差异隐私可能只对足够小的 ε 有效。

我们得出结论,因为真实对手的准确度不太可能与最坏情况下的保证紧密相关,因此选择一个稍大的 ε 确实是务实的。然而,我们的评估表明 ε 不应选择得太大,否则手术收益可能会降低。此外,ε 给定值的成功率在不同的数据集和模型中似乎有所不同。因此,在对 ε 进行实际选择时必须小心。

当利用所有层时,我们的攻击要有效得多,并且早期的层通常占信息泄漏的很大一部分。这表明,在可能的情况下,像 Abadi 等人的转移学习计划可以作为一种实用的防御措施。

规则化:鉴于成员资格推理与过度拟合、正则化之间的联系,hasalsobeen 提出了攻击组员推理的方法,该方法旨在减少过度拟合。事实上,我们的经验结果表明,即使泛化误差可以忽略不计,我们也可以成功地攻击模型。我们发现辍学对大多数案例的准确率没有显著影响。然而,与 DP 相反,辍学通常有利于模型的性能,同时提供适度的防御。有鉴于此,正则化实际上可能是更实用的防御措施,因为它可以提高测试精度,因为更好的泛化确实会使攻击者更难成为成员,尽管这显然不是不可能的。

黑盒设置的防御:对于黑盒设置中的成员身份推断,Shokri 等人还提出了许多其他可能的防御措施,例如将预测向量限制为 topk 类,或通过增加 softmax 的归一化温度来增加预测向量的熵。但是,这些防御在白盒设置中很容易规避,因为在此威胁模型中,攻击者仍然可以使用预先修改的输出。类似地,Salem 等人提出了一种称为模型叠加的防御方法,其中两个模型分别根据训练数据进行训练,第三个模型根据前两个模型的输出进行预测。

7 相关工作

荷马等人在 2008 年提出了被认为是对基因组数据的第一次成员推断攻击。类似地,Komarova 等人研究了部分披露场景,其中对手从公共和私人来源中获得固定的统计数据,并试图推断这些来源中引用的个人的敏感特征。

最近,成员推理攻击被应用于机器学习模型。Ateniese 等人证明,如果能够访问支持向量机(SVM)或隐马尔可夫模型(HMM)的参数,对手可以提取有关训练数据的信息。

黑盒攻击:尽管阴影模型攻击比朴素攻击利用了更多的信息,但我们在评估中发现,阴影模型攻击的性能往往不如朴素攻击。这一发现的一个潜在原因是,用于区分阴影模型在成员和非成员上的输出的方法所使用的攻击模型本身可能会过度拟合。

白盒攻击:在某些设置中,攻击者可以通过白盒访问目标模型。直观地说,虽然一些信息是通过模型的行为泄漏的,但模型的结构细节和参数显然是信息泄漏的罪魁祸首。以前很少有方法成功地利用了这些额外信息。Hayes 等人在研究适用于 GAN 的成员推断攻击时描述了白盒攻击,但该攻击仅使用 GAN 的鉴别器部分的输出,而不是鉴别器或生成器的学习权重。最近,Nasr 等人提出了一种白盒攻击,利用目标模型损失函数相对于其权重的梯度,SGD 在收敛时的训练点上近似为零。

8 结论和未来工作

我们的工作第一次使用了完全平均白盒信息来改进针对深度网络的成员推断攻击。特别是,我们的分析揭示了过度拟合的基本机制,对手可以利用这种机制以具体方式损害模型的隐私。我们的评估表明,这种白盒攻击比以前的最新技术有所改进,特别是它可以可靠地进行高精度校准,即使在一些很好的通用模型上也是如此。

在开发针对隐私攻击的有效防御措施方面仍有大量工作要做。我们预计,从我们的方法中获得的见解将有助于设计此类防御措施。

致谢

本文由南京大学软件学院 2021 级硕士陈伟翻译转述。