论文推荐|[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测(有源码)

发布于 2021-05-12 11:12 ，所属分类：论文学习资料大全

本文简要介绍CVPR 2021录用论文“Fourier Contour Embedding for Arbitrary-ShapedText Detection”的主要工作。该论文提出了一种基于傅里叶变换的任意形状文本框的表示方法和预测该文本框表示的算法流程，从而提高了自然场景文本检测中对于高度弯曲文本实例的检测精度。论文代码被商汤科技的OpenMMLab收录，近期将在其MMOCR项目中开源：https://github.com/open-mmlab/mmocr。

一、研究背景

在近年来，场景文本检测取得了瞩目的进步并被广泛应用到自动驾驶和场景分析等领域。随着文本检测算法的迭代，场景文本检测的点已经从原来的水平方向文本和多方向文本转到更具挑战性的任意形状文本上。为了使文本检测算法在任意形状文本上达到更好的效果，亟需一种任意形状文本实例表示方法来提高算法的性能，良好的文本实例表示应当满足求解简单、表示方法参数量低、灵活度高的特点。目前现有的任意形状文本检测器大多在图像的空间域中表示文本实例，基于空间域的表示方法大体上可以分为两种，即像素掩膜表示和轮廓点序列表示。其中，像素掩膜表示方法可能需要繁杂和耗时的后处理过程，同时对训练样本量的需求往往也会更大；而轮廓点序列表示方法对高度弯曲文本的表达能力有限。由于傅里叶系数表示在理论上可以拟合任意的封闭曲线，并且文本轮廓更多集中在低频分量上，所以通过在傅立叶域对不规则场景文字实例进行表征能很好地解决上述问题，并且具有简单、紧凑、对复杂轮廓表达能力好的特点。

二、原理简述

对于任意封闭轮廓曲线，作者首先将封闭曲线的参数方程嵌入到复数域。

其中(x(t), y(t))表示轮廓曲线上的点，f(t)通过采样和傅里叶变换得到傅里叶系数ck，其中c0表示轮廓的中心点位置。将傅里叶系数ck拆分为实部和虚部，则轮廓可通过固定长度(2(2K +2))的实数向量进行表示。

为了使包围框可通过傅里叶特征向量唯一表示，作者在傅里叶变换前固定了采样初始点为通过中心点的水平线与包围框的最右交点，同时固定采样顺序为顺时钟方向并保持恒定采样速度。

图1 本文FCENet网络整体结构图

图1是本文提出的FCENet网络结构，采用了典型的Backbone+FPN作为主干网络，其FPN输出的特征图会经过共享的预测头进行分类预测和回归预测。在分类分支中（如绿框上半部分所示），网络通过预测文本区域和文本中心区域概率图并将其相乘，得到属于文本分类的得分图；在回归分支中（绿框下半部分所示），会直接预测每个像素位置上的傅立叶特征向量。在后处理过程（如蓝框所示），算法通过在具有高于得分阈值的区域上，对傅里叶特征向量进行逆傅里叶变换(IFT) 重建文本轮廓，并使用非极大值抑制（NMS）滤除重合度高的文本实例。

在网络的训练过程中，分类分支上文本中心区域由文本包围框向内缩进为0.3倍高度得到，回归分支上傅里叶特征向量图除了c0以外均由特征向量在文本区域填充得到。在回归分支上，由于不同频率分量对最后包围框的贡献是不均等的，FCENet采用了在空间域进行损失计算的方法以实现损失均衡。

三、实验结果及分析

表1 在CTW1500、Total-Text和ICDAR2015场景文字检测数据集上的对比实验

在没有采用额外数据集预训练的情况下，FCENet在任意形状场景文字检测标准数据集CTW1500和TotalText上取得了SOTA的效果，并在多方向场景文字检测数据集ICDAR2015上取得了具竞争性的效能。

表2 FCENet的消融实验

表3 FCENet在减少训练样本情况下的泛化能力测试

表2所展示的消融实验结果表明文本中心区域及空间域上的回归损失对网络预测精度有显著的提升效果。从表3所展示的结果，可以看到FCENet在减少训练样本时，依然能保持较好的检测性能，比其他方法有最少超过5%的性能优势，具有良好的泛化能力。

图2 FCE中较小的傅里叶级数上限K就能对任意形状文本的包围框有足够的拟合能力

图3 不同文本包围框表示方法的对比

图4 与不同场景文字检测方法的效果对比

图2-4定性地展示了本文提出的FCE表征方法对文本的拟合效果及最终的检测效果对比。结果表明，FCE具有较强的不规则文本表征能力，FCENet在很多情况下都能产生比其他方法更优的不规则文字检测效果。

四、总结

本文着重于对任意形状文本包围框的表示方法建模，提出了可以精确地逼近任何封闭曲线的傅里叶轮廓嵌入方法和针对此文本框表达方法设计的FCENet。该算法在高度弯曲文本上具有优异的检测性能，且具有良好的泛化能力。在没有额外数据集参与预训练的情况下，在CTW1500、Total-Text上的检测效果达到了SOTA。

五、相关资源

FCENet论文地址：
https://arxiv.org/pdf/2104.10442
FCENet开源代码：https://github.com/open-mmlab/mmocr(代码被商汤科技的OpenMMLab收录，近期将在其MMOCR项目中开源)

参考文献

[1]Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin,and Liangwei Wang. Abcnet: Real-time scene text spotting with adaptive bezier-curve network. In Proc. CVPR, pp. 9809–9818, 2020.

[2]Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Chang Liu, Chun Yang,Hongfa Wang, and Xu-Cheng Yin. Deep relational reasoning graph network for arbitraryshape text detection. In Proc. CVPR, pp. 9699–9708, 2020.

[3]Fangfang Wang, Yifeng Chen, Fei Wu, and Xi Li. Textray:Contour-based geometric modeling for arbitrary-shaped scene text detection. In Proc.ACM MM, pp. 111–119, 2020.

[4]Yuxin Wang, Hongtao Xie, Zheng-Jun Zha, Mengting Xing,Zilong Fu, and Yongdong Zhang. Contournet: Taking a further step toward accurate arbitrary- shaped scene text detection. In Proc. CVPR, pp.11753–11762, 2020.

[5]Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, and Xiang Bai. Real-time scene text detection with differentiable binarization. In Proc.AAAI, pp. 11474–11481, 2020.

[6]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection, In Proc. CVPR, pp. 2117-2125, 2017.

[7]Zhu, Y., Chen, J., Liang, L., Kuang, Z., Jin, L., Zhang, W. (2021). Fourier Contour Embedding for Arbitrary-Shaped Text Detection. arXiv preprint arXiv:2104.10442.

原文作者：Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin, Wayne Zhang

撰稿：简晟，陈健勇

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本gongzhong号立场。