Unified Language Model Pre-training for Natural Language Understanding and Generation
UniLM:使用BERT实现序列到序列的预训练.
UniLM:使用BERT实现序列到序列的预训练.
RoBERTa:鲁棒优化的BERT预训练方法.
具有线性复杂度的高效自注意力机制.
Longformer: 适用于长文本的Transformer.
Linformer: 线性复杂度的自注意力机制.
Performer: 通过随机投影将Attention的复杂度线性化.