图像分类任务的targeted和untargeted后门攻击分别指的是什么?

发布时间:2024年01月23日

在这里插入图片描述

Targeted攻击(Targeted Attack)

这种攻击方式旨在欺骗模型,使其将 特定的输入误分类为特定的类别。 攻击者有明确的目标,希望模型将输入数据识别为事先选定的错误类别。在后门攻击中,攻击者可能植入了一些特殊的模式或标记,使模型在检测到这些后门时执行错误的分类。

举例:假设有一个图像分类模型,它被训练用于区分猫和狗。攻击者想要实施targeted攻击,目标是欺骗模型将一张图片中的猫误认为是狗。攻击者可能在训练数据中植入特殊的图案,或者修改模型参数,以便在输入包含这些特殊图案时,模型将其错误地分类为狗而不是猫。

Untargeted攻击(Untargeted Attack)

与targeted攻击相反,untargeted攻击旨在使模型将 输入误分类为任何类别,而不是特定的目标类别。攻击者不关心模型将输入分类为哪个类别,只要它不是真实的类别即可。这种攻击通常更为难以检测,因为它不涉及特定的目标类别。

举例:在相同的图像分类模型中,攻击者可能不关心模型将图像分类为猫还是狗,只要它不是真实的类别即可。 攻击者可能会在训练数据中注入一些噪声或修改模型参数,以便在某些情况下,模型对图像的分类结果是错误的。这种情况下,攻击者的目标不是让模型将特定的图像误分类为狗,而是触发模型在任何图像上产生错误的分类结果。

总结

区分targeted还是untargeted,主要看输出。如果想让输出是特定的类别,那就是targeted;如果想让输出是任意非真实的类别,那就是untargeted。

文章来源:https://blog.csdn.net/m0_38068876/article/details/135762791
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。