P-Tuning v2:提示微调可与跨规模和任务的通用微调相媲美.

P-Tuning等微调方法存在两个主要的问题:

考虑到这些问题,作者提出了P-Tuning v2,它利用深度提示优化对P-Tuning进行改进,作为一个跨规模和NLU任务的通用解决方案。

P-Tuning v2Transformer网络的每一层都加入了可学习的Prompts tokens作为输入,这带来两个方面的好处:

P-Tuning v2的一些改进:

论文展示了P-tuning v2在不同模型规模下的表现。对于简单的NLU任务,如SST-2(单句分类),P-Tuning在较小的规模下没有显示出明显的劣势。但是当涉及到复杂的挑战时,如自然语言推理(RTE)和多选题回答(BoolQ),P-Tuning的性能会非常差。相反,P-Tuning v2在较小规模的所有任务中都与微调的性能相匹配。并且P-tuning v2RTE中的表现明显优于微调,特别是在BERT模型中。

P-Tuning v2GLUESuperGLUE等相对简单的NLU问题上可以与微调相媲美。为了评估P-Tuning v2在一些困难的NLU挑战中的能力,作者选择了三个典型的序列标注任务(名称实体识别(NER)、抽取式问答(QA)和语义角色标签(SRL)),共八个数据集。观察到P-Tuning v2在所有任务上都能与全量微调相媲美。

论文还通过消融实验研究了不同任务上Prompt Length的影响:

P-Tuning v2是一种在不同规模和任务中都可与微调相媲美的提示方法。P-Tuning v2对从330M10B的模型显示出一致的改进,并在序列标注等困难的序列任务上以很大的幅度超过了P-Tuning