Action Tubelet Detector for Spatio-Temporal Action Localization

ACT-detector：检测tubelet的时空动作检测器.

paper：Action Tubelet Detector for Spatio-Temporal Action Localization
arXiv：link

目前的时空动作检测算法是在每一帧上进行目标检测，得到目标的空间位置，再连接每一帧上的检测结果得到时间上的定位。这些算法把每一帧作为独立的输入，没有考虑视频帧的时间连续性，容易造成检测结果的模糊。如下图仅从单帧图像上是无法分辨目标是坐下还是站起来。

本文提出了Action Tubelet detector (ACT-detector)，即每次输入多帧连续视频帧，输出待预测的行为在连续帧上的多个bbox构成的anchor cuboids，然后对每个bbox进行精修得到待预测行为的tubelets。由于ACT-detector考虑到多个视频帧的连续性特征，从而能够减少行为预测的模糊性，同时提高定位准确率。

给定$K$帧的连续帧视频序列，使用共享权重的卷积神经网络backbone(本文采用SSD)从每帧图像上提取不同层次的特征图。由于backbone预设了ahchor，因此对于同一个anchor在连续的$K$帧视频序列上构成了anchor cuboids。将$K$帧连续图像上的同一个anchor cuboids的特征图堆叠起来，通过两个卷积层分别预测动作类别得分和预测框回归结果。其中分类层预测anchor cuboids对于$C+1$个类别的得分，回归层输出$4K$个坐标用于对预测框进行调整。

模型每一次的预测结果是$K$帧图像序列对应的一系列tubelets，需要将整个视频中的tubelets连接起来。所使用的link算法如下：对于每次输入采取帧步长为$1$，即前一个连续$K$帧图像序列和后一个连续$K$帧图像序列有$K-1$帧重叠。通过非极大值为每个类别保留置信度最大的$N$个tubelets，将重叠的tubelets合并为同一个tubelet links，最后对tubelet links在时间上进行平滑(在每一帧上对所有预测求平均值)，得到最终的检测框坐标。

作者提出了增强版的Two-stream ACT-detector。即同时训练两个检测器，其中一个输入连续的$K$帧图像序列，另一个输入连续$K$帧光流图；两个检测器都输出tubelets。之后对两个tubelets进行融合，具体地，有两种融合方法：