【重磅】CSIG-广东省CVPR 2021论文预交流在线学术报告会来啦! (5月8日)

发布于 2021-05-12 00:15 ，所属分类：论文学习资料大全

来源丨CSIG-文档图像分析与识别专委会

编辑丨极市平台

【导读】：广东省CVPR 2021论文预交流学术报告会将于2021年5月8日在线举办，本次会议邀请了13位广东省在此领域部分优秀团队的青年学子，介绍他们今年被CVPR 2021录用论文的研究成果。

主办： 中国图象图形学学会（CSIG）琶洲实验室
承办： 广东省图像图形学会
CSIG-文档图像分析与识别专委会
CSIG-机器视觉专委会
GDSIG-计算机视觉专委会

直播技术支持： 极市平台

国际计算机视觉与模式识别会议（IEEE Conference on Computer Vision and Pattern Recognition，CVPR）是IEEE一年一度的学术性权威会议，是世界顶级计算机视觉会议之一。CVPR会议的主要内容涵盖计算机视觉、模式识别、图像处理、人工智能等各方面前沿技术。目前，在中国计算机学会推荐国际学术会议的排名中，CVPR为人工智能领域的A类会议。在Google学术指标(Google Scholar Metrics) 计算机视觉及模式识别类别中，CVPR排名第一。为了给本领域研究者、技术开发人员和研究生介绍计算机视觉部分前沿理论方法和最新进展，我们邀请了13位广东省在此领域部分优秀团队的青年学子，介绍他们今年被CVPR 2021录用论文的研究成果。

广东省CVPR 2021论文预交流学术报告会定于2021年5月8日（星期六）在线举办。相关信息如下：

时间： 2021年5月8日星期六
会议直播网址： http://live.bilibili.com/3344545

参会方式：

1.本次在线会议免费参加，不收取任何注册费。
2.普通听众请通过直播网址参加会议。
3.特邀讲者及嘉宾可通过腾讯会议系统参加现场讨论，会议ID另行通知。

会议日程一览表：

*备注：每篇论文由排序第一的报告人进行演讲报告，其余报告人协助回答问题及参与讨论。

联系人：
郑老师， Email: zhwshi@mail.sysu.edu.cn
张老师， Email: eexinzhang@scut.edu.cn

报告摘要：

报告1.Towards Accurate Text-based Image Captioning with Content Diversity Explorations（基于内容多样性探索的文本图像描述）

摘要： 在本篇文章中，我们主要研究文本图像描述（Text-based Image Captioning，TextCap）这一任务，旨在读取图像中的文本并据此进行推理，帮助人和机器更好地理解复杂的真实环境。与普通的图片描述任务相比，TextCap非常具有挑战性，其要求推理模型不仅“看懂”物体，而且要能“读懂”文字，因为真实场景中往往包含复杂的文本和丰富的物体。现有方法试图扩展传统的图像描述方法以解决该任务，但这类方法着重于通过一句全局描述来表示场景，且倾向于只描述场景中一两个显著的物体。显然，这是不合理的，因为一句粗糙的全局描述无法涵盖场景中复杂而丰富的文本和视觉信息。为了解决这个问题，我们提出多视角的描述生成方案，以准确地详细描述图像的不同部分。实现这个目标需要解决三个挑战：1）很难确定要复制或描述图像的哪些部分；2）捕捉图像中不同文本之间的复杂关系并非易事；3）如何生成具有不同内容的多个场景描述仍然是一个悬而未决的问题。为了克服这些问题，我们提出了一种新颖的Anchor-Captioner方法。具体来说，我们先找到应该受到更多的文本，并将其视为锚点（anchor）。然后，对于每个选定的锚点，我们将与其相关的其他文本进行分组以构建相应的锚点中心图（anchor-centred graph，ACG）。最后，基于不同的ACG，我们进行多视角的场景描述生成，保证所生成描述的内容多样性。实验结果表明，我们的方法不仅在准确性和多样性上达到SOTA性能，而且可以用于提升现有方法的生成多样性。

论文链接： https://tanmingkui.github.io/files/publications/Towards_Accurate_Text-based.pdf
代码链接： https://github.com/guanghuixu/AnchorCaptioner

报告2. FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism（基于形状特征具有旋转分离机制的类级别6D物体姿态快速估计网络）

摘要： 本文主要研究基于单目RGB-D图像的类别级6D姿态和尺寸估计。以往的方法在类别级的姿态特征提取效率不高，导致精度和推理速度较低。为了解决这一问题，我们提出了一种基于形状的快速网络（FS-Net），该网络具有有效的类别级特征提取，用于6D姿态估计。首先，我们设计了一个方向感知的三维图形卷积自动编码器，用于潜在特征提取。由于三维图形卷积具有平移和尺度不变性，学习到的潜在特征对点位移和目标尺寸不敏感。然后，为了有效地从潜在特征中解码类别级的旋转信息，我们提出了一种新的解耦旋转机制，该机制使用两个解码器互补地访问旋转信息。对于平移和尺寸，我们分别用两个残差来估计：目标点平均值和地面真值平移的差值，以及类别平均尺寸和地面真值尺寸的差值。最后，为了提高FS网络的泛化能力，我们提出了一种基于在线盒笼的三维变形机制来扩充训练数据。在两个基准数据集上的大量实验表明，该方法在类别级和实例级的6D目标姿态估计中都取得了很好的效果。特别是在类别级姿态估计中，在不需要额外的合成数据的情况下，该方法在NOCS-REAL数据集上的性能比现有方法提高了6.3%。

论文链接： http://arxiv.org/abs/2103.07054
代码链接： https://github.com/DC1991/FS-Net

报告3. 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding（3D AffordanceNet: 一个为视觉物体功能可供性理解构建的基准）

摘要： 从视觉信息中了解与物体交互的方式的能力（又称视觉功能可供性）对于以视觉为指导的机器人研究至关重要。这涉及视觉功能可供性的分类，分割和推理。先前已经有相关工作在2D和2.5D领域中进行了研究，但是，对物体的真正的功能可供性理解需要在3D中进行学习和预测，而这在社区中仍然是缺乏的。在这项工作中，我们提出了一个3D AffordanceNet数据集，它包含有来自23个语义类别的23k物体，并涵盖了18个视觉功能可供性类别。基于此数据集，我们提供了三个基准任务，用于评估视觉功能可供性理解，包括完整点云，部分点云和旋转点云的功能可供性估计。三个最新的点云深度学习网络被用于在所有任务上进行测试。此外，我们还研究了半监督学习进行功能可供性估计，以探索利用未标记数据的可能性。我们贡献的数据集上的综合结果表明，对视觉功能可供性的理解有望成为有价值但具有挑战性的基准。

论文链接： https://arxiv.org/abs/2103.16397
代码链接： https://github.com/Gorilla-Lab-SCUT/AffordanceNet

报告4. Combined Depth Space based Architecture Search for Person Re-identification（面向行人重识别基于组合深度空间的结构搜索）

摘要： 现有的大部分行人重识别工作都是利用原本为图像分类而不是行人重识别设计的大骨干网络来进行特征提取。然而，这些大骨干网络对于行人重识别来说，可能既不计算高效的也不是最合适的网络结构。在本次工作中，我们主要为了设计一个轻量而又适合于行人重识别的网络结构。我们提出一个新颖的搜索空间，叫做组合深度空间(CDS)，基于这个搜索空间，通过可微分结构搜索算法，搜索得到一个高效的网络结构，称为CDNet. 通过使用CDS中的组合基本构建块，CDNet倾向于行人图片中通常容易发现的组合模式信息。然后，我们又提出一个低成本的搜索策略，称为Top-k 采样结构搜索策略，以此充分利用搜索空间且避免陷入局部最优结构。此外，一个高效的且在推理时间可移除的细粒度平衡颈部结构(FBLNeck)被提出用于平衡三元组损失(triplet loss) 和分类损失(softmax loss) 在训练过程中的影响。广泛的实验表明，我们的CDNet(约1.8M的参数量) 取得了与前沿的轻量化网络相当的性能。

论文链接： https://arxiv.org/abs/2104.04163

报告5. Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting（面向RGBT人群计数的跨模态协同表征学习）

摘要： 人群计数是一项基本但又十分具有挑战性的视觉任务，它需要丰富的信息来生成像素级别的人群密度图。之前的方法大多数仅使有限的用光学图像信息，在不受控场景下无法很好地发掘潜在的行人。在这项工作中，我们发现，融合光学信息和热感信息可以极大地提升人群计数性能。为了促进该领域未来的科学研究，我们首创地引入了一个大型RGBT人群计数（RGBT-CC）基准，该基准包含2,030对光学/热感图像，总共标注了138,389位行人。为了进一步促进多模式人群计数的研究，我们提出了一种跨模态协同表征学习框架，该框架由多个模态特异分支，一个模态共享分支以及一个信息聚合分散模块（IADM）组成，以充分捕捉不同模态数据的互补性。具体来说，我们的IADM由两个协同信息传递器组成，通过对偶信息传播机制动态地增强模态共享表征和模态特异分支表征。在RGBT-CC数据集上进行的大量实验充分地验证了我们框架对RGBT人群计数的有效性。此外，我们的方法在RGBD人群计数任务上也取得了业内领先的性能。相关的代码和数据集公布于http://lingboliu.com/RGBT_Crowd_Counting.html。

论文链接： https://arxiv.org/abs/2012.04529
代码链接： http://lingboliu.com/RGBT_Crowd_Counting.html

报告6. Contrastive Neural Architecture Search with Neural Architecture Comparators

摘要： 神经网络搜索的关键步骤之一是评估候选网络结构的性能。现有方法要么直接在验证集上测量网络结构性能，要么学习一个预测器来估计性能。然而，这些方法要么计算成本高，要么非常不准确，这可能会严重影响搜索效率和性能。此外，由于很难在特定任务上对网络结构进行准确的性能标注，因此很难训练得到一个准确的性能预测器。在本文中，我们认为神经网络搜索可能不需要评估候选网络结构的绝对性能。相反，我们可能只需要得到一个网络结构与基线结构的相对优劣就足以进行搜索。然而，如何利用相对优劣信息作为奖励，以及如何很好地利用有限的标注网络结构数据，仍然是两个巨大的挑战。对此，我们提出了一种新型的对比神经架构搜索方法，该方法利用网络结构之间的对比结果作为奖励来进行搜索。具体而言，我们设计了一个网络结构比较器来估计候选网络结构优于基线结构的概率。此外，受课程学习启发，我们提出了一种基线结构更新方案，其可以在搜索过程中逐渐提升基线结构。我们还从理论上表明，学习网络结构比较器和直接优化网络结构间的排序是等价的。我们在三个搜索空间的进行了广泛实验，实验结果证明了我们方法较现有方法的优越性。

论文链接： https://arxiv.org/abs/2103.05471
代码链接： https://github.com/chenyaofo/CTNAS

报告7. Deep Texture Recognition via Exploiting Cross-Layer Statistical Self-Similarity（基于跨层统计自相似性的纹理识别）

摘要： 近年来，卷积神经网络已成为纹理识别中的一个重要工具。在现有的基于卷积神经网络的纹理识别方法中,一个关键是把卷积特征聚合成一个稳健且具有区分性的描述子。本文创新性地提出了一个名为跨层的统计自相似性聚合（CLASS, Cross-Layer Aggregation of Statistical Self-similarity）的纹理特征聚合模块。我们把CNN的逐层特征生成视为一个动态演变过程，这个过程把纹理固有的统计自相似性沿着网络深度方向传递，形成跨层的统计自相似性。CLASS模块计算网络跨层特征的局部差分盒维数软直方图，以此刻画跨层的统计自相似性，其生成的纹理描述子能编码跨层的动态特性以及输入图像的局部统计自相似性，提供了相对于全局平均池化特征额外的区分性特征。通过把CLASS模块集成到ResNet主干网络中，我们提出了一个有效的纹理识别深度神经网络模型，名为CLASSNet。该模型在实验中表现出色，获得了一流的实验结果。

代码链接： https://github.com/chenzhile1999/CLASSNet

报告8. Cross-Domain Adaptive Clustering for Semi-Supervised Domain Adaptation

摘要： 在半监督领域自适应问题的目标域数据中对每个类别赋予少量有标签样本可引导其余的无标签目标域样本的特征聚集在它们周围。但是，如此经过训练后的模型无法为目标域生成具有高度区分性的特征表示，因为训练过程主要由来自源域的有标签样本主导。这就可能导致有标签和无标签的目标域样本之间的特征缺乏连结以及目标域和源域样本之间的特征进行错位对齐。在本文中，我们提出了一种新的被称为跨域自适应聚类的算法来解决这个问题。为了同时实现不同领域间和同一领域内的自适应，我们首先引入了一个对抗性自适应聚类损失函数来对无标签目标域样本的特征进行分组聚类，并在源域和目标域之间以聚类簇的形式进行跨域特征对齐。另外，我们进一步将“Pseudo labeling”技术应用于目标域中无标签样本，并对具有较高的置信度的样本赋予“伪标签”。该技术扩充了目标域中每个类别的“有标签样本”的数量使得每个类别可以产生了更加鲁棒、强大的聚类簇中心，从而促进对抗学习过程。我们在包括DomainNet、Office-Home和Office在内的基准数据集上进行的大量实验，结果表明我们所提出的方法能够在半监督域自适应中实现最优性能。

论文链接： https://arxiv.org/abs/2104.09415v1
代码链接： https://github.com/lijichang/CVPR2021-SSDA

报告9. Interpreting Super-Resolution Networks with Local Attribution Maps

摘要： 得益于深度网络的发明，图像超分辨率（SR）技术得到了快速发展。但是公认的是，深度学习和深度神经网络很难解释。SR网络继承了这种神秘的本质，几乎没有作品试图去理解它们。在本文中，我们对SR网络进行了归因分析，目的是寻找对SR结果有重大影响的输入像素。我们提出了一种新颖的归因方法，称为局部归因图（LAM），该方法继承了积分梯度方法，但具有两个创新点。一种是将高斯模糊图像用作基线输入，另一种是采用渐进模糊函数作为路径函数。基于LAM，我们表明：（1）涉及的输入像素范围更广的SR网络可以实现更好的性能。（2）注意网络和非本地网络从更大范围的输入像素中提取特征。（3）与实际贡献的范围相比，对于大多数深度网络而言，感受野都足够大。（4）对于SR网络，具有规则条纹或网格的纹理更容易被注意到，而复杂的语义则难以利用。我们的工作为设计SR网络和解释底层视觉深度模型开辟了新的方向

论文链接： https://arxiv.org/pdf/2011.11036
代码链接： https://x-lowlevel-vision.github.io/lam.html

报告10. MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection（面向视频异常检测的多示例自训练框架）

摘要： 弱监督视频异常检测是一种基于可分特征将异常从正常事件中检测出来的任务。然而，大多数现有工作受限于不充分的特征表示。本工作中，我们提出了多示例自训练的框架（MIST），该框架仅使用视频级别标签，高效地优化任务相关的特征表示。特别地，MIST包括了（1）一个多示例学习的伪类标生成器，它采用了稀疏连续采样策略来产生更加可信的伪类标；（2）一个自引导注意力模块增强的特征提取器，用以在特征提取过程中使提取器更异常区域。另外，我们采用了自训练的方法来优化这两个部件，并最终得到一个任务特定的特征提取器。我们在两个公开数据集上做了大量实验，这些实验结果证明了我们方法的有效性，而且本方法的性能与现有的有监督和弱监督方法相当甚至更好，特别是在ShanghaiTech数据集上，本方法获得了94.83%的帧级别AUC分数。

论文链接： https://arxiv.org/abs/2104.01633
项目链接： https://kiwi-fung.win/2021/04/28/MIST/

报告11. Deep Optimized Priors for 3D Shape Modeling and Reconstruction（最佳化三维建模与重构中的神经网络先验）

摘要： 在三维建模与重构的任务中，许多基于学习的方法很难扩展到测试数据，这是由于神经网络学习到的先验受制于训练样本的规模和样本间差异。考虑到现有可用的三维数据集的稀疏性，这一点在三维模型的学习任务中尤其如此。我们提出了一种新的三维建模与重构学习框架，大大提高了网络的泛化能力。我们的方法力求将基于学习和基于优化的方法的优点相结合。需要额外注意的是，与在测试时固定训练得到的先验的通常做法不同，我们在训练后根据给出的观测（模型输入）进一步优化所学习的先验。结果表明，该策略有效地突破了预先训练的先验知识的限制，能够对未知数据进行高质量的重建。我们使用隐式场这一表达方式实现了我们的框架，并验证了我们的方法在以高度稀疏的观测值作为输入的各种挑战性任务中的有效性。实验结果表明，该方法在通用性和准确性方面均优于现有方法。

论文链接： https://arxiv.org/abs/2012.07241
代码链接： https://nicoleyang61.github.io/Deep-Optimized-Priors/

报告12. Self-attention based Text Knowledge Mining for Text Detection（基于自我注意的文本知识挖掘）

摘要： 预训练模型在基于深度学习的文本检测器中发挥着重要作用。然而大多数方法忽略了自然图像和场景文本图像之间的差距，直接使用ImageNet预训练模型，另外一些方法首先使用大量的合成数据对模型进行预训练，然后在目标数据集上进行微调，这种方法是针对特定任务的，而且泛化能力有限。在本文中，我们希望为文本检测提供通用的预训练模型。考虑到识别文本内容对文本检测的重要性，我们提出了STKM（基于自我注意的文本知识挖掘），它由一个CNN编码器和一个自我注意解码器组成，以从SynthText学习用于文本检测的一般先验知识。在只给定图像级别的文本标签的情况下，自我注意解码器直接将从CNN编码器中提取的特征解码为文本，而不需要检测，这引导CNN骨干明确地学习以前的方法所忽略的辨别性语义表征。之后，backbone学到的文本知识可以转移到各种文本检测器上，以显著提高它们的检测性能（例如，在ICDAR15数据集上EAST的F值提高了5.89%）

代码链接： https://github.com/CVI-SZU/STKM

报告13. Fourier Contour Embedding for Arbitrary-Shaped Text Detection（基于傅立叶轮廓表征的任意形状文本检测）

摘要： 任意形状的文本检测的主要挑战之一是如何设计一个好的文本实例表示形式，使网络可以学习各种文本几何形状的变化。大多数现有方法通过笛卡尔或极坐标系中的掩模或轮廓点序列在图像空间域中对文本实例进行建模。但是，基于掩模的表示可能需要导致复杂的聚合后处理，而点序列的表示可能对高度弯曲的文本表达不充分。为了解决这些问题，我们在傅立叶域中对文本实例进行建模，并提出了一种新颖的傅立叶轮廓表征（FCE）方法，以将任意形状的文本轮廓表示为紧凑的傅里叶系数序列。我们进一步构建具有主干，特征金字塔网络（FPN）以及具有反傅立叶变换（IFT）和非最大抑制（NMS）的简单后处理功能的FCENet。与以前的方法不同，FCENet首先预测文本实例的紧凑傅立叶系数，然后在测试过程中通过IFT和NMS重建文本轮廓。大量的实验表明，即使具有高度弯曲的形状，FCE仍能准确，鲁棒地适合场景文本的轮廓，并且还验证了FCENet对于任意形状的文本检测的有效性和良好的通用性。此外，实验结果表明，不仅在CTW1500和Total-Text上、并且在挑战高度弯曲的文本子集时，我们的FCENet优于最新的（SOTA）方法。

论文链接： https://arxiv.org/abs/2104.10442
代码链接： https://github.com/open-mmlab/mmocr （即将于mmocr开源）

如果觉得有用，就请分享到朋友圈吧！

重磅！DLer-CVPR2021论文分享交流群已成立！

大家好，这是CVPR2021论文分享群里，群里会第一时间发布CVPR2021的论文解读和交流分享会，主要设计方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）