服务电话:028-65788918


您的位置:主页 > 政策信息 > 人工智能技术重新定义光学字符识别“AI+OCR”:ICR智能识别技术

公司资讯

人工智能技术重新定义光学字符识别“AI+OCR”:ICR智能识别技术

发布时间:2019-03-27 10:43

     

  原题目:人工智能技能从头界说光学字符辨认“AI+OCR”:ICR智能辨认技能

  症结词:人工智能、OCR辨认、ICR智能辨认、NLP做作语义解决、ML呆板进修、CNN神经收集、单据辨认、小票辨认、卷票辨认、纸质单据辨认、发票辨认、医疗单据辨认

  光学字符辨认技能(OCR)今朝被普遍行使在手写辨认、印刷体辨认及文本图象辨认等相干畛域。小到文档辨认、车牌辨认、银行卡辨认、身份证辨认、单据辨认、发票辨认等,年夜到告白、海报内容辨认。OCR技能的发现,极年夜简化了咱们解决数据的形式。

  当下,呆板进修(ML)以及卷积神经收集(CNN)的疾速倒退也让OCR文本辨认涌现了微小的奔腾!咱们在本文的钻研中也将利用卷积神经收集CNN技能来辨认批发店的纸质单据。为了便利演示,咱们本次将仅采纳俄语版的单据举行测试。咱们的指标是名目开辟一个客户端来辨认获患上相干文档,再用效劳器端去辨认剖析数据。

  起首,咱们需求接纳图象相干数据,使其程度竖直标的目的垂直,接上去利用算法举行检测能否为单据,终究二值化,便利做单据辨认。

  起首,咱们看到,图中图象上包罗了完备的数据,同时单据又与后台有些差距。为了能更好辨认相干数据,咱们需求将图片举行扭转。使其程度沿竖直标的目的对于齐。

  咱们利用Opencv中的自顺应阈值化函数adaptive_threshold以及scikit-image框架来调剂收条数据。行使这两项函数,咱们能够在高梯度地区保存红色像素,低梯度地区保存玄色像素。这使患上咱们取患上了一个高反差的样本图片。如许,经过裁剪,咱们就可以获患上单据的相干消息了。

  后来咱们抉择利用CNN来做相干地位检测的接纳点,就像咱们以前做工具检测名目同样。咱们利用果断角度来拾取相干症结点。这类计划固然好用,然而以及高阈值对于照检测裁剪更差。

  由于CNN只能找到文本的角度坐标,而笔墨的角度转变很年夜,这就象征着CNN模子了一直是很精准。概况请参考上面CNN测试的后果。

  作为第三种取舍,咱们测验考试利用Haar特性分类器来做分类挑选。但是通过一周的分类练习以及转变相干参数,咱们并无获患上甚么对比踊跃的后果,以至发明CNN都比Haar体现好很多。

  终究咱们利用opencv中的adaptive_threshold要领举行二值化,通过二值化解决,咱们获患上了一个了一直错的图片。

  起首,咱们利用Opencv中的find Contours函数找到链接的文本组。年夜少数链接的组件是字符,然而也有二值化留上去喧闹的文本,这里咱们经过设置阈值的巨细来过滤相干文本。

  而后,咱们实行分解算法来分解字符,如: Й以及=。经过搜刮最邻近的字符组合分解单词。这类算法需求你找到每一一个相干字字母最邻近的字符,而后从多少字母中找到最好取舍展现。

  接上去笔墨造成笔墨行。咱们经过果断笔墨能否高度分比方来果断文天性否属于统一行。

  咱们发明几近全部单据都是沟通宽度的文本,以是咱们想法在收条上画出一个网格,并行使网格联系每一一个字符:

  网格一会儿精简了单据辨认的难度。神经收集能够精准辨认每一一个网格内的字符。如许就处理了文本喧闹的环境。终究能够切确统计文本数目。

  而后咱们发明图中左下角有些是真,所哟咱们经过二维周期函数来调剂网格辨认。

  批改网格失真面前首要的思维是行使图形峰值点找到非线性多少失真,换句话说,咱们必需找到这个函数的最年夜值的以及。此外,咱们又一次需求一个最好失真值才行。

  对于文本辨认,咱们利用卷积神经收集(CNN)接纳相干字体举行培训。输入部门,咱们经过对于照来晋升几率。咱们谁人几个最后的几个选项多对于照,发明有99%的精确辨认率后。又经过对于照字典来进步精确度,并解除了相干近似的字符,如З 以及 Э酿成的毛病。

  当文本太喧闹的时间,需求找到完备的单词能力举行单个字母的辨认。咱们利用上面两个要领来处理这个题目:

  您能够浏览这些文章,以越发深切相识利用卷积神经收集辨认序列中的文本 ,或者咱们能够利用神经收集建树与说话有关的OCR吗? 为此,咱们利用了OCRopus库来举行辨认。

  练习收场后,咱们由行使其余数据来测试咱们的神经收集,固然,测试后果无比踊跃。这是咱们获患上的数据:

  练习好的神经收集在简略的例子上体现非常优异。一样,咱们也辨认到了网格了一直适宜的庞杂环境。

  为了了一直神经收集适度拟合,咱们屡次截至并批改练习后果,并一直退出新数据作为练习样本。末了咱们获患上如下后果:

  由于收条字体是等宽的字体,以是咱们抉择根据字符联系字体。起首,咱们需求晓患上每一一个字母的宽度。是以,字符的宽度尤其紧张,咱们需求约莫每一一个字母的长度,行使函数,咱们获患上下图。取舍多种形式来拔取特定的字母宽度。

  咱们利用正则表白式来查找收条中采办环境。全部收条都有一个共通点:购卖价格以XX.XX款式来撰写。是以,能够经过提取采办的行来提取相干消息。集体征税号码是十位数,也能够经过正则表白式轻松获患上。一样,也能够经过正则表白式找到NAME / SURNAME等消息。

  LSF-SCNN:一种基于 CNN 的漫笔本表白模子及类似度计较的全新优化模子





版权所有:平博

网站备案号:黔ICP备13005187号-4

地址:成都市高新区交子北8单元8888室

联系电话:088-65788918