pp电子炸裂!PDF转Word彻底告别收费时代这个OCR开源项目要逆天!
栏目:pp电子 发布时间:2022-11-11
 原标题:炸裂!PDF转Word彻底告别收费时代,这个OCR开源项目要逆天!  随着企业数字化进程不断加速,PDF转Word的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。  PP-StructureV2系统流程图如下所示,文档图

  原标题:炸裂!PDF转Word彻底告别收费时代,这个OCR开源项目要逆天!

  随着企业数字化进程不断加速,PDF转Word的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。

  PP-StructureV2系统流程图如下所示,文档图像首先经过图像矫正模块,判断整图方向并完成转正,随后可以完成版面信息分析与关键信息抽取2类任务。

  版面分析指的是对图片形式的文档进行区域划分,定位其中的关键区域,如文字、标题、表格、图片等。在PP-StructureV1中,使用了PaddleDetection中开源的高效检测算法PP-YOLOv2完成版面分析的任务。在PP-StructureV2中,我们发布基于PP-PicoDet的轻量级版面分析模型,针对版面分析场景定制图像尺度,同时使用FGD知识蒸馏算法pp电子,进一步提升模型精度,最终CPU上41ms即可完成版面分析。

  本次升级过程中,我们对模型结构和损失函数等5个方面进行升级,提出了 SLANet (Structure Location Alignment Network) ,模型结构如下图所示,详细解读请参考技术报告。

  whjdark)基于最新发布的PP-StructureV2智能文档分析系统,开发了一款PDF转Word小工具,导入PDF文件可一键转换为可编辑Word,支持文字、表格、标题、图片的完整恢复。图8 PDF文件转Word文件操作流程演示

  ,并提供了开箱即用的网页版demo和小程序demo,整体系统存储从12.3M压缩至4.3M,在Mac-M1机器上使用chrome浏览器测试推理速度仅需350mspp电子,流畅度显著升级,相比旧版本模型压缩65%,预测速度提升87.5%。欢迎大家试用!☆入群福利

  《动手学OCR》电子书,配套讲解视频和Notebook项目;OCR场景应用集合:包含数码管、液晶屏、车牌、高精度SVTR模型等10个垂类模型,覆盖通用,制造、金融、交通行业的主要OCR垂类应用;

  PaddleDetection中提出了全新的轻量级系列模型PP-PicoDet,通过使用ESNet骨干网络、CSP-PAN特征融合模块、SimOTA标签分配方法等优化策略,最终在CPU与移动端具有卓越的性能。本次版面分析模型使用PP-PicoDet进行优化,同时针对版面分析场景优化预测尺度,最终相比PP-StructureV1版面分析模型,精度提升0.6%,模型速度提升9倍。

  FGD(Focal and Global Knowledge Distillation for Detectors),是一种兼顾局部全局特征信息的模型蒸馏方法,分为Focal蒸馏和Global蒸馏2个部分。Focal蒸馏分离图像的前景和背景,让学生模型分别关注教师模型的前景和背景部分特征的关键像素;Global蒸馏部分重建不同像素之间的关系并将其从教师转移到学生,以补偿Focal蒸馏中丢失的全局信息。版面分析实验结果表明,FGD蒸馏算法能够进一步提升模型精度。

  PP-StructureV2中,我们设计SLAHead模块,对单元格token和坐标之间做了对齐操作,如下图b所示。在SLAHead中,每一个step的隐藏层状态表征会分别送入SDM和CLDM来得到当前step的token和坐标,每个step的token和坐标输出分别进行concat得到表格的html表达和全部单元格的坐标。此外,我们在结构与回归分支使用更多的全连接层pp电子,增加二者特征的区分度。

  LayoutLMv2以及LayoutXLM中引入视觉骨干网络,用于提取视觉特征,并与后续的text embedding进行联合,作为多模态的输入embedding。但是该模块为基于ResNet_x101_64x4d的特征提取网络,特征抽取阶段耗时严重,因此我们将其去除,同时仍然保留文本、位置以及布局等信息,最终发现针对LayoutXLM进行改进,下游SER任务精度无损,针对LayoutLMv2进行改进,下游SER任务精度仅降低2.1%,而模型大小减小了约340M。具体消融实验可以参考技术报告。

  文本阅读顺序对于信息抽取与文本理解等任务至关重要,传统多模态模型中,没有考虑不同OCR工具可能产生的不正确阅读顺序,而模型输入中包含位置编码,阅读顺序会直接影响预测结果,在预处理中,我们对文本行按照从上到下,从左到右(YX)的顺序进行排序,为防止文本行位置轻微干扰带来的排序结果不稳定问题,在排序的过程中,引入位置偏移阈值Th,对于Y方向距离小于Th的2个文本内容,使用X方向的位置从左到右进行排序。

  声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。pp电子pp电子pp电子