无监督视频表示学习的进化损失.
本文提出了一种用于视频表示学习的多模态多任务框架。该方法从不同的数据模态中提取特征,并构造多种自监督学习任务使得包含相似语义信息的视频帧特征实现特征空间中的聚集。
该方法处理四种数据模态:RGB、光流图像、灰度图像和音频;对每种模态设置七种自监督学习任务;并且构建其他模态网络对处理RGB网络的数据蒸馏。
所采用的自监督任务包括:
- 重构和预测任务:重构输入帧、根据$T$帧预测后续$N$帧、跨模态迁移预测
- 时序排序:排序帧和打乱帧的二分类、顺序帧和逆序帧的二分类
- 多模态对比损失:构造Triplet损失
- 多模态对齐:判断不同模态数据是否对齐:
上述每个模态$t$的每个任务$t$都需要设置一个损失权重$\lambda_{m,t}$,作者采用CMA-ES进化算法进行搜索。进化算法需要设置损失函数的评估指标,本文作者提出了Evolving Loss,用于评估不同损失权重设置的好坏。
在每种权重设置下,对数据进行自监督训练得到特征表示,使用k-means构造$k$个聚类中心\(\{c_1,...,c_k\}\);作者假设聚类中心的分布应该服从Zipf’s law,即聚类类别出现的频率与它在频率表里的排名成反比:
\[q(c_i) = \frac{1/i^s}{H_{k,s}}\]其中$H$是调和数,$s$是一个实数。而聚类中心的经验分布可通过高斯混合模型估计为:
\[p(c_i) = \frac{1}{N} \sum_x \frac{\exp(-(x-c_i)^2)}{\sum_{j=1}^k\exp(-(x-c_j)^2)}\]Evolving Loss定义为通过KL散度衡量聚类中心的经验分布和先验分布的相似性:
\[KL[p || q] = \sum_{i=1}^k p(c_i) \log \frac{p(c_i)}{q(c_i)}\]下图展示了进化算法迭代过程中不同损失权重$\lambda_{m,t}$的取值情况: