论文推荐|[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测(有源码)
发布于 2021-05-12 11:12 ,所属分类:论文学习资料大全
本文简要介绍CVPR 2021录用论文“Fourier Contour Embedding for Arbitrary-ShapedText Detection”的主要工作。该论文提出了一种基于傅里叶变换的任意形状文本框的表示方法和预测该文本框表示的算法流程,从而提高了自然场景文本检测中对于高度弯曲文本实例的检测精度。论文代码被商汤科技的OpenMMLab收录,近期将在其MMOCR项目中开源:https://github.com/open-mmlab/mmocr。
一、研究背景
二、原理简述



图1是本文提出的FCENet网络结构,采用了典型的Backbone+FPN作为主干网络,其FPN输出的特征图会经过共享的预测头进行分类预测和回归预测。在分类分支中(如绿框上半部分所示),网络通过预测文本区域和文本中心区域概率图并将其相乘,得到属于文本分类的得分图;在回归分支中(绿框下半部分所示),会直接预测每个像素位置上的傅立叶特征向量。在后处理过程(如蓝框所示),算法通过在具有高于得分阈值的区域上,对傅里叶特征向量进行逆傅里叶变换(IFT) 重建文本轮廓,并使用非极大值抑制(NMS)滤除重合度高的文本实例。
三、实验结果及分析
在没有采用额外数据集预训练的情况下,FCENet在任意形状场景文字检测标准数据集CTW1500和TotalText上取得了SOTA的效果,并在多方向场景文字检测数据集ICDAR2015上取得了具竞争性的效能。
图2-4定性地展示了本文提出的FCE表征方法对文本的拟合效果及最终的检测效果对比。结果表明,FCE具有较强的不规则文本表征能力,FCENet在很多情况下都能产生比其他方法更优的不规则文字检测效果。
四、总结
五、相关资源
FCENet论文地址:
https://arxiv.org/pdf/2104.10442FCENet开源代码:https://github.com/open-mmlab/mmocr(代码被商汤科技的OpenMMLab收录,近期将在其MMOCR项目中开源)
参考文献
[1]Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin,and Liangwei Wang. Abcnet: Real-time scene text spotting with adaptive bezier-curve network. In Proc. CVPR, pp. 9809–9818, 2020.
[3]Fangfang Wang, Yifeng Chen, Fei Wu, and Xi Li. Textray:Contour-based geometric modeling for arbitrary-shaped scene text detection. In Proc.ACM MM, pp. 111–119, 2020.
[4]Yuxin Wang, Hongtao Xie, Zheng-Jun Zha, Mengting Xing,Zilong Fu, and Yongdong Zhang. Contournet: Taking a further step toward accurate arbitrary- shaped scene text detection. In Proc. CVPR, pp.11753–11762, 2020.
[5]Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, and Xiang Bai. Real-time scene text detection with differentiable binarization. In Proc.AAAI, pp. 11474–11481, 2020.
[6]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection, In Proc. CVPR, pp. 2117-2125, 2017.
[7]Zhu, Y., Chen, J., Liang, L., Kuang, Z., Jin, L., Zhang, W. (2021). Fourier Contour Embedding for Arbitrary-Shaped Text Detection. arXiv preprint arXiv:2104.10442.
原文作者:Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin, Wayne Zhang
审校:殷飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本gongzhong号立场。
往期精彩内容回顾
论文推荐|[CVPR 2021] 融合文本检测与相似度学习的场景文本检索
论文推荐|[ AAAI2021] HiGAN:基于变长文本和解耦风格的手写数据合成方法(有源码)
论文推荐|[CVPR 2021] 序列到序列对比学习的文本识别
论文推荐|[CVPR 2021]重新思考文本分割:新的数据集及一种针对文本特征的改进分割方法
论文推荐|[PR 2021]一种用于惯性信号空中手写无监督域迁移的可视化方法
论文推荐|[ECCV2020] 可以看清吗?使用角度监督进行内容感知纠正
论文推荐| [AAAI 2021]DeepWriteSYN:基于深度短时表征的联机笔迹合成方法
论文推荐|[CVPR 2021]像人类一样阅读:用于场景文本识别的自主与双向迭代语言建模(代码将开源)
论文推荐|[AAAI 2021] SPIN:用于场景文本识别的结构保持内部偏移网络
论文推荐|[AAAI 2021] PGNet: 基于点收集网络的任意形状文本实时检测与识别
相关资源