MultiSports:基于篮球,足球,体操,排球赛事的大型时空动作检测数据集.

作者认为,一个高质量的时空动作检测数据集数据集应该具有以下特点:

  1. 应该弱化背景信息以及人物姿态对判断人类动态行为的影响,即只通过单张图像较难判断动作。
  2. 行为应该有良好的时间边界。
  3. 行为类别应具有一定的细粒度。

作者提出了一个大型、高质量的时空动作检测数据集MultiSports,有$25$fps的逐帧标签,且每个动作具有清晰的时间边界。具体地,选择了四种多人运动场景(篮球、足球、排球、体操)。选择运动场景是因为动作具有明确的定义,且有大量不同动作同时进行。在标注时先让专业运动员标注每个动作的起始帧与结尾帧,并标注起始帧中的对应人物的边界框,然后通过众包进行标注。没有标注一些日常行为(如站,坐),不考虑犯规动作。

下图从动作数量、实例个数、动作平均持续时间和边界框数量等因素对比不同的时空动作检测数据集:

通过统计不同动作类别的实例数,发现数据服从长尾分布:

通过统计每个实例的长度(帧数)分布,发现大部分数据属于短视频:

作者使用一些SOTA模型在MultiSports上进行训练,分析其测试结果:

作者针对不同的错误情况进行定义,并统计这些错误实际出现的比例:

通过混淆矩阵,也可以分析不同运动中对不同类别的预测情况: