Synthesizer:使用合成注意力的Transformer模型.
GPT3:语言模型是少样本学习器.
探讨深度集成学习的损失曲面.
讨论BERT剪枝中的“彩票假设”.
从人类大脑活动中重构图像.
探究电子游戏的人类先验知识.