继往开来！目标检测二十年技术综述

CV君 AI科技大本营 2019-06-21

作者 | 周强

来源 | 我爱计算机视觉（id：aicvml）

计算机视觉中的目标检测，因其在真实世界的大量应用需求，比如自动驾驶、视频监控、机器人视觉等，而被研究学者广泛关注。

几天前，arXiv新出一篇目标检测文献《Object Detection in 20 Years: A Survey》对该领域20年来出现的技术进行了综述，这是一篇投向PAMI的论文，作者们review了400+篇论文，总结了目标检测发展的里程碑算法和state-of-the-art，并且难能可贵的对算法流程各个技术模块的演进也进行了说明，还深入到目标检测的特定领域如人脸检测、行人检测等进行了总结，最后列举了未来可能的发展方向。

温故而知新，非常值得参考！

作者信息：

该文作者来自美国密歇根大学、北京航空航天大学、滴滴出行。

下图是作者在谷歌学术检索目标检测相关关键字返回的历年文献数量，可见该领域20年来越来越受到学术界的关注。2018年有将近1200篇相关文献发表。

目标检测路线图

作者将目标检测近20年来的里程碑算法画在时间轴上，如下：

可见作者将算法大致分为2012年之前的传统检测方法与2012年之后出现的基于深度学习的检测方法。

传统方法比如我们所熟知的V-J检测、HOG检测、DPM算法。
深度学习方法截然不同的分为两条技术路径：单阶段检测算法与两阶段检测算法。

同时作者把目标检测的一些精度提高的方法的出现也列在了时间轴上，比如bounding box regression、multi-resolution detection等。

在目前最知名的评估数据集 VOC 2007 、VOC 2012、 COCO 上不同年份出现的算法精度提高，如下图：

可见，深度学习在检测领域的开山之作 RCNN 取得了大幅度精度提高，开辟了检测的新时代。而今年新出的 TridentNet 是目前在 COCO 数据集上取得最高精度的算法。

目标检测数据集

作者总结了通用目标检测及几个特定目标检测的数据集。

通用目标检测领域常用数据集：

几个常用数据集的示例图片：

行人检测常用数据集：

人脸检测常用数据集：

文本检测常用数据集：

交通灯检测与交通标志检测常用数据集：

遥感目标检测常用数据集：

目标检测技术演进

作者将目标检测中涉及的各种技术的演进铺展开来，让我们能就单一技术看到发展路径。

早期目标检测算法代表：

多尺度检测技术演进路线图：

包围框回归技术演进路线图：

目标上下文建模技术演进路线图：

包围框非极大抑制（NMS）技术演进路线图：

难检测负样本挖掘技术演进路线图：

目标检测计算加速

目标检测天生是计算密集型任务，所以在其发展的各个阶段，目标检测算法的加速就一直是一个重要议题。

作者总结的目标检测计算加速方法：

可见主要是在三个层次加速：

数值计算层次（如积分图、矢量量化等）、
检测引擎层次（网络剪枝与量化、轻量级网络设计等）、
检测流程层次（特征图共享、分类器加速、级连检测等）。

因为目前CNN检测方法是主流，作者列出了近年出现的卷积计算的一些加速方法及其时间复杂度：

目标检测进展

作者在这部分描述了近三年来state-of-the-art目标检测技术的研究进展。

1. 更好地引擎（engine）

作者将深度学习目标检测网络的骨干网称为其引擎。改进目标检测的一个直接思路就是使用更加先进的骨干网。

如下图：

相同算法用相同颜色的圆点表示，使用相同引擎的算法结果用一个大括号连接，我们可以轻易看出，使用不同的引擎对最终精度的影响更大。

2. 使用更好的特征

作者主要指：1）特征融合；2）学习大感受野的高分辨率特征

3. 超越滑动窗口

不再是局限于候选区域再分类的模式。作者提到两种新模式：

1）子区域搜索 sub-region search。将目标检测看为从初始网格到最终ground truth box的路径规划过程。

2）关键点定位。将目标检测看为特定语义点定位的过程。

比如：
ECCV18 Oral | CornerNet目标检测开启预测“边界框”到预测“点对”的新思路
Grid R-CNN解读：商汤最新目标检测算法

4. 目标定位改进

1）包围框提精。

2）改进loss函数用于精确定位。比如：

5. 检测与分割一起进行

分割可以帮助目标检测提高类别识别的精度、获得更好地目标定位、嵌入更加丰富的上下文。

分割的网络可以作为目标检测的提取网络，也可以作为多任务学习的损失函数，用以改进目标检测。

6. 旋转和尺度变化鲁棒的目标检测

针对旋转变化鲁棒改进方向：

1）旋转不变损失函数；

2）旋转校正；

3）Rotation RoI Pooling。

针对尺度变化鲁棒的改进：

1）尺度自适应训练；

2）尺度自适应检测。

7. Training from Scratch

不使用预训练模型，从头开始训练目标检测网络。

8. 对抗训练

比如有研究表明，GAN可以用来改进小目标的检测。

9. 弱监督的目标检测

不使用包围框标注，而仅使用图像级的目标标注的算法。

减少标注成本，扩大训练集。

目标检测应用

作者列举了目标检测的几个特殊应用，包括行人检测、人脸检测、文本检测、交通灯及标志检测、遥感目标检测。

指出每种检测任务面临的困难和挑战，并简述了目前应对这些问题的方法。

目标检测的未来方向

作者列举的未来方向包括：

1. 轻量级目标检测算法；

2. 用AutoML设计目标检测算法；

3. 域适应（domain adaptation）改进目标检测；

4. 弱监督的目标检测；

5. 小目标检测；

6. 视频目标检测

7. 融合其他传感器信息的目标检测。

论文地址：
https://arxiv.org/abs/1905.05055v1

（*本文为 AI科技大本营转载文章，转载请联系作者）

◆

公开课精彩推荐

◆

本次课程将会介绍如何利用TensorRT加速YOLO目标检测，课程将会着重介绍编程方法。本次课程还会涉及到 TensorRT 中数据类型，流处理，多精度推理等细节的展示。本次课程特色是讲解+示例分享。本次课程中，QA也是一个非常精彩的环节。

推荐阅读

你点的每个“在看”，我都认真当成了喜欢

“家属和记者取得联系”：记者的退场意味深长

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

这位副市长，跨省升正厅

女主播性感斗舞，直播间惨遭拿下！知名团播整大活，邀女嘉宾家人做节目

要么空仓！要么盯紧这个！