这种攻击方式旨在欺骗模型,使其将 特定的输入误分类为特定的类别。 攻击者有明确的目标,希望模型将输入数据识别为事先选定的错误类别。在后门攻击中,攻击者可能植入了一些特殊的模式或标记,使模型在检测到这些后门时执行错误的分类。
举例:假设有一个图像分类模型,它被训练用于区分猫和狗。攻击者想要实施targeted攻击,目标是欺骗模型将一张图片中的猫误认为是狗。攻击者可能在训练数据中植入特殊的图案,或者修改模型参数,以便在输入包含这些特殊图案时,模型将其错误地分类为狗而不是猫。
与targeted攻击相反,untargeted攻击旨在使模型将 输入误分类为任何类别,而不是特定的目标类别。攻击者不关心模型将输入分类为哪个类别,只要它不是真实的类别即可。这种攻击通常更为难以检测,因为它不涉及特定的目标类别。
举例:在相同的图像分类模型中,攻击者可能不关心模型将图像分类为猫还是狗,只要它不是真实的类别即可。 攻击者可能会在训练数据中注入一些噪声或修改模型参数,以便在某些情况下,模型对图像的分类结果是错误的。这种情况下,攻击者的目标不是让模型将特定的图像误分类为狗,而是触发模型在任何图像上产生错误的分类结果。
区分targeted还是untargeted,主要看输出。如果想让输出是特定的类别,那就是targeted;如果想让输出是任意非真实的类别,那就是untargeted。