摘要:这种方法通过验证可疑模型是否包含防御者指定的外部特征来工作.。具体地,通过对少数训练样本进行风格转换嵌入外部特征,然后训练一个元分类器来判断一个模型是否是从受害者那里窃取的。
获得一个经过良好训练的模型涉及昂贵的数据收集和训练过程,因此该模型是一个有价值的知识产权。 模型窃取攻击是一种针对机器学习模型的攻击方法。
在这种攻击中,攻击者通过向目标模型发送查询并使用模型的响应来构建一个功能上等效的复制模型。
这种攻击可以用来低成本复制一个有效的模型,或者用来简化设计其他攻击(如对抗样本、成员资料推理、对抗性重编程等)的过程。
模型窃取攻击特别适用于黑盒设置中,即攻击者没有关于目标模型内部工作原理的直接知识。
验证嵌入外部特征(verifying embedded external features)技术提出了一种防御模型窃取攻击的新方法,如图所示。
这种方法通过验证可疑模型是否包含防御者指定的外部特征来工作.。具体地,通过对少数训练样本进行风格转换嵌入外部特征,然后训练一个元分类器来判断一个模型是否是从受害者那里窃取的。
由于只对一些样本进行了破坏,并且不更改它们的标签,因此嵌入的功能不会妨碍受害者模型的功能。 这个方法基于理解被窃取的模型应该包含受害者模型学习到的特征知识. 在CIFAR-10 ImageNet的一个子集上的实验结果表明,这种方法能有效检测出通过多阶段窃取过程获得的不同类型的模型窃取行为。
来源:晓晨科技观察
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!