Self-Supervised Models are Continual Learners

录用信息

录用于CVPR‘22

问题背景:

在自监督学习(SSL)引领表示学习的目前,增量式的自监督表示学习仍然研究不多。本文调查了6种SSL方法经过作者的改进后在增量学习的3种基准下(类增量,数据增量,域增量)进行调查。发现在类增量学习下,SSL增量表示学习比有监督表示学习更优。

设置的3种基准分别是:(1)类增量:这里的类别只用于划分数据集,类别标签对模型不可见(即保证是无监督的);(2)数据增量:不考虑类别关系,只是把数据按批次增加,比较符合现实情况。实验中把数据集打乱再随机划分,因此一个phase内可能包含所有类别;(3)域增量:增量的phase是按照图像的domain划分。

方法概述

image-20230203144929979

自监督学习的原理是使有相同语义的图像有相似的表示。通常,对图像实例使用数据增强得到正样本图像,其他作为负样本图像。

本文将自监督学习拓展到连续学习的主要思想是:这种语义不变性关于参数状态也是不变的(即不遗忘),SSL被拓展到旧特征空间以及新特征空间。

连续自监督学习核心:学习跨状态不变特征

首先,为了保证新特征可以包含旧特征的信息,本文使用了一个预测头ggz=ft(x)\boldsymbol{z}=f^t(\boldsymbol{x})从新特征空间投影至旧特征空间,然后使用知识蒸馏从g(z)g(\boldsymbol{z})中预测z=ft1(x)\overline{\boldsymbol{z}}=f^{t-1}(\boldsymbol{x})。知识蒸馏损失就保持与SSL使用的损失一致即可,好处就是方便简单:

LD(z,z)=LSSL(g(z),z)\mathcal{L}_D(\boldsymbol{z}, \overline{\boldsymbol{z}})=\mathcal{L}_{S S L}(g(\boldsymbol{z}), \overline{\boldsymbol{z}})

预测头的使用使得z\boldsymbol{z}可以具有更高可塑性,同时保证g(z)g(\boldsymbol{z})的稳定性。

最终的损失为:

L=LSSL(zA,zB)+LD(zA,zA)=LSSL(zA,zB)+LSSL(g(zA),zA).\begin{aligned} \mathcal{L} & =\mathcal{L}_{S S L}\left(\boldsymbol{z}^A, \boldsymbol{z}^B\right)+\mathcal{L}_D\left(\boldsymbol{z}^A, \overline{\boldsymbol{z}}^A\right) \\ & =\mathcal{L}_{S S L}\left(\boldsymbol{z}^A, \boldsymbol{z}^B\right)+\mathcal{L}_{S S L}\left(g\left(\boldsymbol{z}^A\right), \overline{\boldsymbol{z}}^A\right) . \end{aligned}

其中zA,zB\boldsymbol{z}^A,\boldsymbol{z}^B分别是一个实例的两个视图的特征。

实验概述

实验的核心内涵就是(1)方便的兼容已有SSL方法(2)性能在类增量的基准下表现很好

实验的核心比较方法是应用到某种SSL方法后,对比该SSL的Fine-tuning有提升,尽量靠近Offline的上界。比有监督的Fine-tuning也要高。这样就说明了他的价值。在对比数据增量和域增量的基准,只能做到比相同SSL方法Fine-tuning有提升,无法超过监督的Fine-tuning。也可以说明具有一定价值。注意验证方法与有监督的连续学习不同,本文使用的是Linear Evaluation Accuracy(LEA),即在所以无监督增量学习完成后,才获得所有标签信息,只用于微调分类器。最终报告的是平均LEA。

此外还开展了一些有意义的额外实验,比如某些设定下使用更长时间只在intial task进行SSL学习也有可能会比增量SSL更好。以及半监督和下游测试,也使得论文加分不少。

image-20230203160406263

算法伪代码:

image-20230209191405199

我的评价

  • 优点:方法较简单,体现了极强的写作技巧(流畅行文和思想高度概括)和实验工作量(非常详细,指标也多),是无监督连续学习的一篇好文章。
  • 缺点:性能可提升空间很大。比如在数据增量和域增量上没有超过有监督设定,以及消融中交换视图(LD(zA,zB)\mathcal{L}_D\left(\boldsymbol{z}^A, \overline{\boldsymbol{z}}^B\right),即A视图在新特征空间,B视图在旧特征空间)导致性能下降也说明方法学习到的跨状态不变性不够鲁棒。同样,更长的1/5线下训练有时更好也说明可提升空间较大。此外所有实验基于5步增量,实在是有些少,说明作者在更长距离的实验中可能遭遇尴尬的结果。