郑之杰的个人网站

Averaging Weights Leads to Wider Optima and Better Generalization

SWA：通过随机权重平均寻找更宽的极小值.

AdamW：解耦梯度下降与权重衰减正则化.

ULSAM：超轻量级子空间注意力机制.

Transformer结构中的层归一化.

A^2-Net：双重注意力网络.

轻量级非局部网络的神经结构搜索.