郑之杰的个人网站

Mish: A Self Regularized Non-Monotonic Activation Function

Mish：一种自正则化的非单调激活函数.

Taylor Formula.

XLNet：使用排列语言建模训练语言模型.

MASS：序列到序列的掩码语言建模.

UniLM：使用BERT实现序列到序列的预训练.

RoBERTa：鲁棒优化的BERT预训练方法.