郑之杰的个人网站

AdaX: Adaptive Gradient Descent with Exponential Long Term Memory

AdaX：基于指数长期记忆的自适应梯度下降.

Adafactor：减少Adam的显存占用.

NovoGrad：使用层级自适应二阶矩进行梯度归一化.

一种用于实例分割的复制粘贴数据增强方法.

LAMB：结合层级自适应学习率与Adam.

Visualization methods of Convolutional Neural Networks.