CURL:强化学习的对比无监督表示.

CURL把无监督对比学习应用到强化学习领域。它采用与MoCo类似的方法学习强化学习任务的视觉表示。

对于一个观测$o$,构造两个数据增强版本$o_q,o_k$。由于强化学习依赖于连续帧之间的时间一致性,因此CURL在每个堆栈帧上一致地应用相同的增强方法,以保留关于观察的时间结构的信息。具体地,CURL采用随机裁剪,从原始图像中随机裁剪两个子图像:

CURL通过编码器$f_q(\cdot)$构造查询样本$o_q$的查询表示$q=f_q(o_q)$,通过滑动平均更新的矩编码器$f_k(\cdot)$构造键表示$k=f_k(o_k)$,通过一个可学习矩阵$W$构造损失函数:

\[\mathcal{L}_{\text{CURL}} = -\log \frac{\exp(q^T W k_+)}{\exp(q^T W k_+)+\sum_{i=0}^{K-1}\exp(q^TW k_i)}\]

CURL的实现过程如下: