图像分类任务的targeted和untargeted后门攻击分别指的是什么？

发布时间：2024年01月23日

在这里插入图片描述

Targeted攻击（Targeted Attack）

这种攻击方式旨在欺骗模型，使其将 特定的输入误分类为特定的类别。 攻击者有明确的目标，希望模型将输入数据识别为事先选定的错误类别。在后门攻击中，攻击者可能植入了一些特殊的模式或标记，使模型在检测到这些后门时执行错误的分类。

举例：假设有一个图像分类模型，它被训练用于区分猫和狗。攻击者想要实施targeted攻击，目标是欺骗模型将一张图片中的猫误认为是狗。攻击者可能在训练数据中植入特殊的图案，或者修改模型参数，以便在输入包含这些特殊图案时，模型将其错误地分类为狗而不是猫。

Untargeted攻击（Untargeted Attack）

与targeted攻击相反，untargeted攻击旨在使模型将 输入误分类为任何类别，而不是特定的目标类别。攻击者不关心模型将输入分类为哪个类别，只要它不是真实的类别即可。这种攻击通常更为难以检测，因为它不涉及特定的目标类别。

举例：在相同的图像分类模型中，攻击者可能不关心模型将图像分类为猫还是狗，只要它不是真实的类别即可。 攻击者可能会在训练数据中注入一些噪声或修改模型参数，以便在某些情况下，模型对图像的分类结果是错误的。这种情况下，攻击者的目标不是让模型将特定的图像误分类为狗，而是触发模型在任何图像上产生错误的分类结果。

总结

区分targeted还是untargeted，主要看输出。如果想让输出是特定的类别，那就是targeted；如果想让输出是任意非真实的类别，那就是untargeted。

文章来源:https://blog.csdn.net/m0_38068876/article/details/135762791
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！