隐式梯度正则化.
大批量分布式训练的线性缩放规则和warmup.
一篇关于多模态机器学习的综述(表示、转换、对齐、融合与协同学习).
LIIF:学习2D图像的连续表达形式.
AdaX:基于指数长期记忆的自适应梯度下降.
Adafactor:减少Adam的显存占用.