这篇论文提出了一个名为DiSparse的方法,它专门针对多任务模型压缩问题设计了一种独特的剪枝和稀疏训练方案。在深度学习中,尤其是计算机视觉领域,卷积神经网络(CNN)由于其卓越的性能而被广泛应用,但随着模型规模的增大和参数数量的剧增,对于边缘设备等资源有限的应用场景,有效压缩模型以节省存储空间和提高计算效率变得至关重要。
在多任务学习(MTL)中,单个模型同时解决多个相关任务,可以显著减少训练和推理时间,并通过学习跨任务共享的表示来提升泛化能力。然而,当涉及到多任务网络的压缩时,由于不同任务之间特征的高度纠缠,传统的剪枝和稀疏训练方法往往效果不佳。这是因为共享参数空间中的某些参数对一个任务可能不重要,但对另一个任务却至关重要。
为了解决这个问题,DiSparse提出了一种新颖的剪枝策略,该策略充分考虑了多任务网络中特征的纠缠特性。具体来说,DiSparse首先独立评估每个任务在共享参数空间中各个参数的重要性得分,然后仅剔除那些对所有任务都不重要的参数,这样就避免了因剪枝而导致某些任务性能急剧下降的问题,从而实现了一个更加平衡的网络结构。
在实际操作中,DiSparse会为每个任务生成二进制的剪枝掩码,并基于所有任务的一致意见作出选择决策。在处理共享参数部分时,DiSparse采用了“仲裁者”函数A,将各任务独立计算出的与共享参数相关的掩码集合起来,综合决定最终的共享参数剪枝掩码Bc。
实验结果显示,无论是静态稀疏训练还是动态稀疏训练,以及在预训练网络上进行剪枝的情况下