论文地址
LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment (ICDAR 2021).
https://arxiv.org/pdf/2105.06224.pdf
表格本身是按照人设定的规则来展示数据,具有很强的对齐特性,如果能够得到对齐很好的表格单元格的边框,那么还原表格的结构就非常容易了,因此重点就是如何获得更好的对齐的单元格边框。
LGPMA采用HRNet-W48 Cascade Mask RCNN作为backbone,图像经过CNN提取特征后分成两路,一路类似于Mask RCNN的形式用来检测非空单元格叫LPMA(因为是单元格粒度,所以是局部的),LPMA中又分为3个头,一个头是将单元格中的文本区域分割出来,另外两个头用来学习单元格的水平对齐和垂直对齐的soft mask;另一路叫GPMA(因为是整张图的粒度,所以是全局的),也分为3个头,一个头用来学习整图的二分类mask(单元格区域和非单元格区域),另两个头在全局学习整张图上的非空单元格的水平和垂直对齐的soft mask。在得到两路soft mask后,用一个mask re-scoring的方式将LPMA和GPMA的对齐mask融合,之后对每个单元格边框进行进一步精修。
接下来是对单元格的后处理得到表格结构的过程。分为cell matching,empty cell searching和empty cell merging三个步骤得到最终的表格结构。
提供了一个在PubTabNet数据集上训练的模型。
表格识别效果
原文地址
https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650352503&idx=1&sn=5fd0b10a1b2248846c8d0e537e07fedc&chksm=87813d84b0f6b49258ea0fc211d5f676de57cb17f37667a9ba05a629a454c29fecb0f03a5924&token=2075784644&lang=zh_CN#rd