T-CNN:使用上下文信息和运动信息增强视频目标检测.

本文提出了一种将目前的静态图像检测网络扩展到视频检测中的方法。静态目标检测直接应用于视频检测会遇到很多问题。视频相较于静态图像引入了时间信息,因此视频中的目标位置应具有时间一致性,即检测结果的检测类别和检测框位置不应该随时间产生巨大变化。直接应用静态目标检测方法会使相邻帧之间的检测结果具有较大差异。由于静态目标检测方法不具有时间一致性,因此在不同帧上的检测置信度会产生较大波动,且没有利用视频中的上下文信息,造成误检、漏检等现象。

本文提出了一个框架:T-CNN,扩展了目前流行的静态目标检测方法,并将其用于视频检测中。为增强方法的时间一致性,作者提出要充分利用视频的上下文信息和时间信息。首先使用静态目标检测方法对视频中的每一帧进行检测,将检测结果传播到邻近帧以增强上下文信息,从而减少误检率(即减少false positive)。通过跟踪算法对检测结果施加长期约束以增强时间信息,从而减少漏检率(即减少false negative)。在本文中,由静态目标检测方法检测到的一系列检测框被称为tubeletT-CNN的结构如下:

T-CNN主要由四个部分组成。

  1. 静态图像检测(Still-image object detection):通过静态检测器对视频的所有帧生成proposal,并生成这些proposal的得分。
  2. 多上下文抑制(Multi-context suppression)运动引导传播(Motion-guided Propagation):多上下文抑制通过上下文信息降低误检率;运动引导传播通过运动信息降低漏检率。
  3. 重新打分(Tubelet re-scoring):通过跟踪算法对检测结果进行重新打分。
  4. 模型组合(Model combination):将检测结果进行组合,通过非极大值抑制进行过滤。

(1) Still-image object detection

静态图像检测器采用DeepID-NetCRAFT两种框架,其余组件分别对这两种检测器的检测结果进行处理,并通过模型组合得到最终的检测结果。DeepID-NetR-CNN的扩展,CRAFTFaster R-CNN的扩展。

(2) Multi-context suppression

直接使用静态检测器会忽略视频的上下文信息。由于视频每个帧的检测结果应该具有较强的相关性,可以使用这一点降低检测的误检率。比如视频某一帧中有一些得分较高的负样本检测类别,仅使用该帧内的信息不能将其与正样本区分开。然而考虑其他帧的检测结果,该负样本类别的得分会较低。如下面几个视频片段,具有较高检测置信度的类被视为高置信度类(绿色箭头),其他类被视为低置信度类(红色箭头)。

基于多帧上下文信息的抑制首先按降序对视频的所有静态检测结果的置信度进行排序。具有较高置信度的检测类别被视为高置信度类别,其余则被视为低置信度类别。保持高置信度类别的检测分数不变,降低低置信度类别的检测分数以抑制误检率。通过在验证集上搜索每个视频所含的类别数量,得到平均值$μ= 1.134$,标准差$σ=0.356$,即单个视频中包含类别数量超过$2$的概率很低,故降低其余所有类别的检测分数。

(3) Motion-guided Propagation.

静态图像检测器在相邻帧中检测到对象时,在某些帧时可能会丢失对象。运动引导传播使用运动信息将检测结果传播到相邻帧以降低漏检率。 具体做法是将每帧的检测框和它们的分数传播到其相邻帧以增加检测结果。 由于传播窗口通常设置的比较小,且后续使用了非极大值抑制,因此该方法额外增加的误检可以忽略不计。下图是一个例子:

(4) Temporal tubelet re-scoring

上述操作通常能够保证检测结果的短期时间一致性。为了实现检测结果的长期时间一致性,使用跟踪算法生成长期的检测序列,然后根据其检测分数的统计,将其中一部分化作正样本。

(5) Model combination

对于来自DeepID-NetCRAFT两种静态检测框架的检测结果,通过组合后进行非极大值抑制获得最终的检测结果。