Schiappa, M. C., Rawat, Y. S., & Shah, M. (2023). Self-Supervised Learning for Videos: A Survey. ACM Comput. Surv., 55(13s), 1–37. https://doi.org/10.1145/3577925
论文中文名称:视频的自监督学习综述
摘要:
深度学习在各个领域取得的显著成功依赖于大规模标注数据集的可用性。然而,获取标注是昂贵且需要巨大努力的,特别是对于视频而言更是具有挑战性。此外,使用人工生成的标注会导致模型学习偏见,并且在领域泛化和稳健性方面效果较差。作为替代方案,自监督学习提供了一种无需标注的表示学习方法,在图像和视频领域都显示出了潜力。与图像领域不同,学习视频表示更具挑战性,因为涉及到时间维度,引入了运动和其他环境动态。这也为在视频和多模态领域推进自监督学习提供了机会。在这份综述中,我们回顾了关于自监督学习在视频领域的现有方法。我们将这些方法总结为四个不同的类别,基于它们的学习目标:(1) 先导任务,(2) 生成式学习,(3) 对比学习,和 (4) 跨模态一致性。我们进一步介绍了常用的数据集、下游评估任务、对现有工作局限性的见解,以及这一领域的潜在未来方向。
图1:使用通过自监督学习训练的预训练模型进行下游任务的示意图。该过程始于在无标签数据集上使用自监督学习目标对模型进行预训练。一旦训练完成,学到的权重被用作下游任务上一个较小的带标签数据集的模型初始化。
图2:近年来自监督(SSL)视频表示学习研究的统计数据。从左到右,我们显示a) 在顶级会议场馆发表的与SSL相关的论文总数,b) 对SSL研究的主要研究主题进行的分类统计,和c) SSL中使用的主要模态的模态分类统计。2022年仍然不完整,因为大多数会议发生在年底。