8.6M超輕量中英文OCR模型開(kāi)源，訓(xùn)練部署一條龍

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

成都創(chuàng)新互聯(lián)公司專注于陳倉(cāng)網(wǎng)站建設(shè)服務(wù)及定制，我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。熱誠(chéng)為您提供陳倉(cāng)營(yíng)銷型網(wǎng)站建設(shè)，陳倉(cāng)網(wǎng)站制作、陳倉(cāng)網(wǎng)頁(yè)設(shè)計(jì)、陳倉(cāng)網(wǎng)站官網(wǎng)定制、成都微信小程序服務(wù)，打造陳倉(cāng)網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供陳倉(cāng)網(wǎng)站排名全網(wǎng)營(yíng)銷落地服務(wù)。

要說(shuō)生活里最常見(jiàn)、最便民的AI應(yīng)用技術(shù)，OCR（光學(xué)字符識(shí)別）當(dāng)屬其中之一。

尋常到日常辦理各種業(yè)務(wù)時(shí)的身份證識(shí)別，前沿到自動(dòng)駕駛車輛的路牌識(shí)別，都少不了它的加持。

作為一名開(kāi)發(fā)者，各種OCR相關(guān)的需求自然也少不了：卡證識(shí)別、票據(jù)識(shí)別、汽車場(chǎng)景、教育場(chǎng)景文字識(shí)別……

那么，這個(gè)模型大小僅8.6M，沒(méi)有GPU也能跑得動(dòng)，還提供自定義訓(xùn)練到多硬件部署的全套開(kāi)發(fā)套件的開(kāi)源通用OCR項(xiàng)目，了解一下？

話不多說(shuō)，先來(lái)看效果。

可以看到，無(wú)論文字是橫排、還是豎排，這個(gè)超輕量模型都有不錯(cuò)的識(shí)別效果。

難度略高，且實(shí)際生活當(dāng)中經(jīng)常遇到的場(chǎng)景也不在話下：

那么，如果情況更復(fù)雜一點(diǎn)，這么小的模型能hold住嗎？

畢竟，在實(shí)際應(yīng)用場(chǎng)景中，圖像中的文字難免存在字符彎曲、模糊等諸多問(wèn)題。

比如，并不高清的路牌：

主體部分基本都識(shí)別無(wú)誤，只有英文小字部分因?yàn)榇_實(shí)比較模糊，識(shí)別效果不太理想。

再看一張文字背景復(fù)雜的圖像識(shí)別效果：

出現(xiàn)一個(gè)錯(cuò)別字，扣一分。滿分10分的話，可以打個(gè)9分了。

其實(shí)，在實(shí)際OCR項(xiàng)目落地過(guò)程中，開(kāi)發(fā)者往往面臨兩個(gè)痛點(diǎn)：

1. 無(wú)論是移動(dòng)端和服務(wù)器端，待識(shí)別的圖像數(shù)目往往非常多，都希望模型更小，精度更高，預(yù)測(cè)速度更快。GPU太貴，最好使用CPU跑起來(lái)更經(jīng)濟(jì)。在滿足業(yè)務(wù)需求的前提下，模型越輕量占用的資源越少。

2. 實(shí)際業(yè)務(wù)場(chǎng)景中，OCR面臨的問(wèn)題多種多樣，業(yè)務(wù)場(chǎng)景個(gè)性化往往需要自定義數(shù)據(jù)集重新訓(xùn)練，硬件環(huán)境多樣化就需要支持豐富的部署方式。再加上收集數(shù)據(jù)之類的dirty work，往往一個(gè)項(xiàng)目落地中的大部分時(shí)間都用在算法研發(fā)以外的環(huán)節(jié)中，迫切需要一套完整全流程的解決方案，來(lái)加快研發(fā)進(jìn)度，節(jié)約寶貴的研發(fā)時(shí)間。

也就是說(shuō)，超輕量模型及其全流程解決方案，尤其對(duì)于算力、存儲(chǔ)空間有限的移動(dòng)端、嵌入式設(shè)備而言，可以說(shuō)是剛需。

而在這個(gè)開(kāi)源項(xiàng)目中，開(kāi)發(fā)者也貼心提供了直接可供測(cè)試的Demo。

在量子位的實(shí)際上手測(cè)試中，在移動(dòng)端Demo上這樣一個(gè)不到10M的模型，基本上可以做到秒出效果。

在中文公開(kāi)數(shù)據(jù)集ICDAR2017-RCTW上，限定圖片長(zhǎng)邊尺寸960px，測(cè)試數(shù)據(jù)與測(cè)試條件相同的前提下，將該項(xiàng)目與之前一度登上GitHub熱榜的Chineseocr_Lite（5.1k stars）最新發(fā)布的10M模型進(jìn)行測(cè)試對(duì)比。在模型大小、精度和預(yù)測(cè)速度方面，結(jié)果如下：

該8.6M超輕量模型，V100 GPU單卡平均預(yù)測(cè)耗時(shí)57ms，CPU平均預(yù)測(cè)耗時(shí)319ms。

而Chineseocr_Lite的10M模型，V100單卡預(yù)測(cè)速度230ms，CPU平均預(yù)測(cè)耗時(shí)739ms。

當(dāng)然，這里面模型預(yù)測(cè)速度的提升不僅是因?yàn)槟Ｐ痛笮「×?，也離不開(kāi)算法與框架深度適配優(yōu)化。

項(xiàng)目中給出的Benchmark如下：

作為一名面向GitHub編程的程序員，頓時(shí)感到老板再來(lái)各種OCR需求都不方了。

而且這個(gè)8.6M超輕量開(kāi)源模型，背后還有大廠背書(shū)。

因?yàn)槌銎贩讲皇莿e人，是國(guó)產(chǎn)AI開(kāi)發(fā)一哥百度，他們把這個(gè)最新開(kāi)源的OCR工具庫(kù)取名：PaddleOCR。

GitHub 地址：https://github.com/PaddlePaddle/PaddleOCR

8.6M的通用OCR模型如何煉成

PaddleOCR發(fā)布的超輕量模型，主要由4.1M的檢測(cè)模型和4.5M的識(shí)別模型組成。

其中，檢測(cè)模型的Base模型采用DB算法，文本模型的Base模型采用經(jīng)典的CRNN算法。

鑒于MobileNetV3在端側(cè)系列模型中的優(yōu)越表現(xiàn)，兩個(gè)模型均選擇使用MobileNetV3作為骨干網(wǎng)絡(luò)，可將模型大小初步減少90%以上。

除此之外，開(kāi)發(fā)人員還采用減小特征通道數(shù)等策略，進(jìn)一步對(duì)模型大小進(jìn)行了壓縮。

模型雖小，但是訓(xùn)練用到的數(shù)據(jù)集卻一點(diǎn)也不少，根據(jù)項(xiàng)目方給出的數(shù)據(jù)，模型用到的數(shù)據(jù)量（包括合成數(shù)據(jù)）大約在百萬(wàn)到千萬(wàn)量級(jí)。

但是也有開(kāi)發(fā)者可能會(huì)問(wèn)，在某些垂類場(chǎng)景，通用OCR模型的精度可能不能滿足需求，而且算法模型在實(shí)際項(xiàng)目部署也會(huì)遇到各種問(wèn)題，應(yīng)該怎么辦呢？

PaddleOCR從訓(xùn)練到部署，提供了非常全面的一條龍指引，堪稱「最全OCR開(kāi)發(fā)者大禮包」。

「最全OCR開(kāi)發(fā)者大禮包」 △禮包目錄，堪稱業(yè)界最全支持自定義訓(xùn)練

OCR業(yè)務(wù)其實(shí)有特殊性，用戶的需求很難通過(guò)一個(gè)通用模型來(lái)滿足，之前開(kāi)源的Chineseocr_Lite也是不支持用戶訓(xùn)練的。

為了方便開(kāi)發(fā)者使用自己的數(shù)據(jù)自定義超輕量模型，除了8.6M超輕量模型外，PaddleOCR同時(shí)提供了2種文本檢測(cè)算法（EAST、DB）、4種文本識(shí)別算法（CRNN、Rosseta、STAR-Net、RARE），基本可以覆蓋常見(jiàn)OCR任務(wù)的需求，并且算法還在持續(xù)豐富中。

特別是「模型訓(xùn)練/評(píng)估」中的「中文OCR訓(xùn)練預(yù)測(cè)技巧」，更是讓人眼前一亮，點(diǎn)進(jìn)去可以看到「中文長(zhǎng)文本識(shí)別的特殊處理、如何更換不同的backbone等業(yè)務(wù)實(shí)戰(zhàn)技巧」，相當(dāng)符合開(kāi)發(fā)者項(xiàng)目實(shí)戰(zhàn)中的煉丹需求。

打通預(yù)測(cè)部署全流程

對(duì)開(kāi)發(fā)者更友好的是，PaddleOCR提供了手機(jī)端（含iOS、Android Demo）、嵌入式端、大規(guī)模數(shù)據(jù)離線預(yù)測(cè)、在線服務(wù)化預(yù)測(cè)等多種預(yù)測(cè)工具組件的支持，能夠滿足多樣化的工業(yè)級(jí)應(yīng)用場(chǎng)景。

數(shù)據(jù)集匯總

項(xiàng)目幫開(kāi)發(fā)者整理了常用的中文數(shù)據(jù)集、標(biāo)注和合成工具，并在持續(xù)更新中。

目前包含的數(shù)據(jù)集包括：

5個(gè)大規(guī)模通用數(shù)據(jù)集（ICDAR2019-LSVT，ICDAR2017-RCTW-17，中文街景文字識(shí)別，中文文檔文字識(shí)別，ICDAR2019-ArT）大規(guī)模手寫(xiě)中文數(shù)據(jù)集（中科院自動(dòng)化研究所-手寫(xiě)中文數(shù)據(jù)集）垂類多語(yǔ)言O(shè)CR數(shù)據(jù)集（中國(guó)城市車牌數(shù)據(jù)集、銀行信用卡數(shù)據(jù)集、驗(yàn)證碼數(shù)據(jù)集-Captcha、多語(yǔ)言數(shù)據(jù)集）

還整理了常用數(shù)據(jù)標(biāo)注工具（labelImg、roLabelImg、labelme）、常用數(shù)據(jù)合成工具（text_renderer、SynthText、SynthText_Chinese_version、TextRecognitionDataGenerator、SynthText3D、UnrealText）

并且開(kāi)源以來(lái)，受到開(kāi)發(fā)者的廣泛關(guān)注，已經(jīng)有大量開(kāi)發(fā)者投入到項(xiàng)目的建設(shè)中并且貢獻(xiàn)內(nèi)容。

真·干貨滿滿。

體驗(yàn)一下？

看到這里，你心動(dòng)了嗎？如果還想眼見(jiàn)為實(shí)，PaddleOCR已經(jīng)提供了在線Demo，網(wǎng)頁(yè)版、手機(jī)端均可嘗試。

感興趣的話收好下面的傳送門(mén)，親自體驗(yàn)起來(lái)吧~

傳送門(mén)：

項(xiàng)目地址：https://github.com/PaddlePaddle/PaddleOCR

網(wǎng)頁(yè)版Demo：https://www.paddlepaddle.org.cn/hub/scene/ocr

移動(dòng)端Demo：

https://ai.baidu.com/easyedge/app/openSource?from=paddlelite

新聞標(biāo)題：8.6M超輕量中英文OCR模型開(kāi)源，訓(xùn)練部署一條龍
文章URL：http://www.muchs.cn/article40/cjpceo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供企業(yè)建站、App開(kāi)發(fā)、營(yíng)銷型網(wǎng)站建設(shè)、網(wǎng)站改版、用戶體驗(yàn)、移動(dòng)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容