论文推荐|[CVPR 2021]HOTR:借助Transformer进行端到端的人与对象交互检测

发布于 2021-05-12 11:13 ，所属分类：论文学习资料大全

本文简要介绍CVPR 2021 论文“HOTR: End-to-End Human-Object Interaction Detection with Transformers”的相关工作。在本文中提出了一种由HOTR引用的新框架，该框架可根据基Transformer编码器/解码器架构来直接预测一组人，物体，交互等三联体。该方法不需要后处理，目标检测后的推理时间不到1ms。

研究背景

人与物体的交互（HOI）检测已在[8]中定义为预测图像中一组人类，物体，交互三联体的任务。先前的方法通过先执行对象检测，然后将人，对象对与单独的后处理步骤相关联，以间接的方式解决了该任务。尤其是，早期的尝试（即顺序的HOI检测器[5、18、17、26]）已经与后续的神经网络进行了这种关联，因此既费时又昂贵。为了克服顺序HOI检测器的冗余推理结构，最近的研究[30、19、12]提出了并行HOI检测器。

HOI检测的先前工作仍然限于两个方面。 i）他们需要额外的后处理步骤，例如抑制几乎重复的预测和启发式阈值。 ii）尽管已经表明，对象之间的建模关系有助于对象检测[11，2]，但尚未充分探索在HOI检测中考虑交互作用的高依赖性的有效性。

方法及原理简介

V-COCO数据集上的HOI检测器性能如下面图所示，HOI识别推理时间是通过从端到端推理时间中减去对象检测时间而测得的。蓝色圆圈代表顺序的HOI检测器，橙色圆圈代表平行的HOI检测器，红色星号代表我们的HOI检测器。

本文的目标是预测一组人、对象、交互的三元组，同时以端到端方式考虑三元组之间的内在语义关系。为了实现这一目标，他们将HOI检测定义为集预测。在这一节中，他们首先讨论了将目标检测[2]的集预测体系结构直接扩展到HOI检测的问题。然后，提出了体系结构HOTR，该体系结构可并行预测一组目标检测，并将交互中的人与对象关联起来，而变压器中的自注意则对交互之间的关系进行建模。最后，他们给出了训练模型的细节，包括用于HOI检测的匈牙利匹配和损失函数。

HOTR的整体流水线如下图2所示。他们的架构具有一个Transformer编码器-解码器结构，它具有一个共享编码器和两个并行解码器(即实例解码器和交互解码器)。

他们的体系结构通过拥有独立的实例和交互表示，并使用HO指针将它们关联起来来解决这个问题。此外，我们的体系结构允许更有效地学习本地化，而不需要每次交互都冗余地学习本地化。请注意，实验表明，他们的共享编码器比两个单独的编码器更有效地学习HO指针。

实验结果

他们演示了提出的模型在HOI检测中的有效性。首先描述两个用作基准的公共数据集:V-COCO和HICO-DET。后来展示了HOTR通过在mAP和推理时间上获得最先进的性能，成功捕获HOI三组。然后，提供了一个详细的烧蚀研究的HOTR架构。

结论

在本文中，他们提出了第一个基于变换的集预测方法，用于人机交互问题。HOTR的集合预测方法消除了之前HOI探测器手工制作的后处理步骤，同时能够对相互作用之间的相关性进行建模。提出了多种用于HOTR的训练和推理技术:使用并行解码器进行HOI分解训练，基于相似性的重组层进行推理，以及交互活性抑制。开发了一种新的基于集合的匹配HOI检测，将交互表示关联到实例表示。模型在HOI检测的两个基准数据集(V-COCO和HICO-DET)中实现了最先进的性能，与以前的并行HOI检测器相比有很大的优势。HOTR在两个基准数据集上实现了最先进的HOI检测性能，推理时间低于1毫秒，大大快于以前的并行HOI检测器(5 ~ 9毫秒)。

参考文献