文章主题:
转自 CAAI会员中心
摘 要
🌟🚀基于深度学习的场景文字魔法✨——智能检测与识别算法系统💥💡通过创新的”片段链接”策略,我们打造了一款高效的文字探测神器,轻松应对任意方向的长文字挑战!🌍无论横竖还是斜向,都能瞬间分解为易识别的小片段,每个环节都精确如丝。🔗🔍对于识别部分,我们的神经网络模型堪称行业翘楚——端到端训练,一体化解决方案!🔥整合CNN、RNN和时序连接分类技术,就像文字的私人解读器,直接从图片中提取并解读信息,无需繁琐步骤。📖这套系统不仅提升了文字处理的精准度,还赋予了机器理解力,让文字检测与识别变得更智能、更无缝。🚀未来,期待它在更多领域大放异彩!🌟
关 键 字
场景文字;文字检测;文字识别;卷积神经网络;循环神经网络
0 引言
在这个信息爆炸的时代,符号化的世界为我们提供了丰富的信息载体,无论是书籍、报纸、文件,还是名片、路牌、商品标签,乃至车辆标识和店铺招牌,文字无处不在,以图像和符号的形式广泛传播。OCR,即光学字符识别,是计算机视觉领域的基石,它的重要性不言而喻,就像眼睛解读文本一样,让机器也能理解并提取图片中的文字信息。无论是传统的印刷品,还是新兴的摩斯码和五线谱等非自然语言书写系统,文字都以其独特的方式在数字化世界中熠熠生辉,为搜索引擎优化提供了丰富的关键词。
OCR技术,以其对扫描文档图片的高度适应性,长久以来是文本识别领域的主力。然而,随着场景文字的兴起,这一领域正迎来一场革新。场景文字,即在自然环境下出现的文字,如无人超市中的标识、智能导盲设备上的提示等,其检测与识别的需求日益广泛,对技术提出了更高的要求。相较于文档图片,场景文字的背景往往更加多样且难以预判,增加了挑战性。字体颜色和排布的不规则性,使得它比传统的OCR文本更难于识别。此外,传统OCR系统的庞大结构和高昂研发成本,也让这一过程显得更为复杂费时。因此,对于场景文字检测与识别技术的研发,不仅需要突破现有算法的局限,还要适应复杂的背景环境和多变的文字特征。这不仅是对OCR技术的一次升级,也是推动新兴科技如无人零售、自动驾驶等领域进步的关键。未来,我们期待看到更高效、精准的解决方案,以满足这些领域对于文字识别的迫切需求。
📚💻近年来,深度学习引领的计算机视觉革命,让诸多难题迎刃而解。如今,深度学习已渗透至视觉研究的各个角落,对学术与产业产生了深远的影响。🚀深厚的神经网络是深度学习的基石,其强大的特征提取、灵活架构及端到端训练特性,使其成为解决场景文字识别问题的理想工具。本文创新性地运用深度学习,结合卷积神经网络(CNN)的图像识别力量和循环神经网络(RNN)的序列理解,构建了一整套高效精准的场景文字检测与识别系统。🌟
1 “片段链接”: 快速任意方向文字检测方法
🌟文本定位大师🔍:端到端识别之第一步!图像中的文字位置,一“扫”即知!OCR技术的精确导航,以🔥水平框、斜角框乃至自由多边形等形式呈现,满足不同任务需求。每个字符或行,都尽在掌握中。别看它似物体检测小弟,但面对文字这特殊物种,通用算法可就捉急了——候选区域受限,框形比例僵化,长文难解,非水平框无能为力!OCR的独特之处,就在于其对文字形状的敏感理解和动态适应能力。🚀SEO优化之旅,从精准定位开始!
🏆📖”理解’片段链接’算法:文字图文密探者🌍🔍!”💡图1揭秘:文本重构的艺术——片段与链接的魔法交响曲🎵每个音符,即片段,是单词的微缩乐章,用角度矩形框轻轻包围,高度贴近词根,宽度仅占全貌一隅。链接则是它们间的桥梁,无声地串联起这些音符,揭示单词间的逻辑脉络。\👀检测过程就像在织一张精细的文本网,片段与链接交织,几何规则下连成片,形成完整词汇的轮廓。非水平长词不再是难题,片段的局部特征识别加上链接的巧妙连接,让文字检测变得轻松自如。\📈网络结构如图2所示,VGG-16的智慧在此闪耀——一次前向传输,多尺度探测,密集且高效,扫清了长文本检测的障碍。🌍🔍碎片与线索交织,片段链接算法,为文字识别开启新纪元!🏆
此外,我们还提出了同层链接和跨层链接两种链接类型,前者连接同一个特征层中检测到的片段;后者连接不同层上的片段。同层和跨层链接使得相同或不同尺度上的片段都可以被组合在一起,从而避免了漏检和重复检测的问题。
在对所有片段和链接作置信度和几何偏移的估计之后,该模型输出一组片段和一组链接。接下来,片段和链接分别通过各自的置信度阈值进行过滤,去除置信度低于阈值α 的片段和置信度低于阈值β 的链接。最后,过滤后的片段根据过滤后的链接组合成完成的包围盒。
图 3 显示了片段链接在长文本检测上的表现。可以看出,片段和链接沿着文本行被密集检测,它们将细长的文本分解为了更容易检测的局部视觉元素。相比之下,当下流行的物体检测器难以输入长宽比如此极端的包围盒,而片段链接很好地解决了这个问题。此外,尽管英文和中文文本在外观上有很大的差异,但我们的模型仍能够在不改变其结构的情况下同时处理它们。这也显示了片段链接在多语种场景下的适用性。
2 CRNN:端到端文字识别网路
卷积RNN(CRNN) 是本文提出的可以端到端训练的文字识别网络,该网络结合了卷积神经网络(CNN) 和RNN。其特点在于无需单个字符的标注,可直接用文字行图片和对应的标签训练,相比传统方法大幅降低了训练和部署成本。CRNN 的总体网络结构如图 4 所示。它从下至上主要由CNN、RNN 翻译层三个部分组成。CNN 负责提取卷积特征图; 特征图被转换为特征序列后交由RNN 进行预测,输出单帧预测结果;最后,翻译层将单帧预测结果翻译为字母序列。尽管CRNN 包含不同类型的网络结构,它仍然能被端到端的训练,并且只需要一项损失函数。
CRNN 只在Synth90k 数据集上进行训练一次,然后在其他数据集上测试,不作额外的微调。尽管只用合成数据训练,CRNN 仍然能够在真实数据集上取得良好效果。在有词汇表模式下,CRNN 的识别准确度超过了同时期的大多数其他方法。在无词汇表模式下,CRNN 在IIIT5k 和SVT 两个数据集上都取得了最高的识别准确度。值得一提的是,CRNN 的性能超过了Google 公司开发的PhotoOCR 系统。PhotoOCR 使用了近800万张训练图片,并且这些训练图片有字符级别的标注;而CRNN 仅仅在合成图片上训练,完全没有使用人工标注的数据,却能够大幅度地在识别准确率上超出PhotoOCR 系统。这说明CRNN 是高性能且低成本的识别方法。
3 结束语
本文对场景文字检测与识别问题完成了一次系统和全面的研究。针对不同的问题及问题的不同方面,分别提出了检测方法片段链接和识别方法CRNN,在识别准确性、方法通用性及工程实用性三个方面都相比先前工作取得了显著进步。
(参考文献略)
选自《中国人工智能学会通讯》
2020年 第10卷 第2期 优秀博士学位论文精华版
AI 研习 往期文章
点击左下角“阅读原文”,加入CAAI
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!