ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
ViTPose:用于人体姿态估计的简单视觉Transformer基线.
ViTPose:用于人体姿态估计的简单视觉Transformer基线.
PolyLoss:一种分类损失函数的多项式展开视角.
RoFormer:使用旋转位置编码增强Transformer.
使用通用相对位置编码改进Transformer的通用近似性.
在复数域空间中构造词嵌入.
自注意力机制中的相对位置编码.