教你用OCR識(shí)別(電腦如何識(shí))
1. 什么是OCR?
文字識(shí)別也叫 OCR(ptical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備檢查紙上打印的字符,通過檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程。
簡(jiǎn)而言之,就是將圖片上的字符信息轉(zhuǎn)換為可編輯的文字內(nèi)容。數(shù)據(jù)管理系統(tǒng)提供的「文字識(shí)別」字段支持通用文字、身份證、增值稅發(fā)票、營(yíng)業(yè)執(zhí)照、駕駛證、行駛證、銀行卡以及火車票的識(shí)別,只需簡(jiǎn)單配置,即可實(shí)現(xiàn)強(qiáng)大的文字轉(zhuǎn)換處理。
1.1 OCR可以用于哪些應(yīng)用場(chǎng)景?
銀行身份認(rèn)證場(chǎng)景中,只需提交身份證信息,OCR 就能自動(dòng)識(shí)別出身份證上的姓名、性別、地址等信息并填報(bào)到系統(tǒng)中;
在企業(yè)資質(zhì)審核場(chǎng)景中,通過上傳營(yíng)業(yè)執(zhí)照,OCR 將營(yíng)業(yè)執(zhí)照的注冊(cè)號(hào)、企業(yè)名稱等信息識(shí)別出并填報(bào)到系統(tǒng)中,再通過營(yíng)業(yè)執(zhí)照校驗(yàn)接口,自動(dòng)完成企業(yè)資質(zhì)校驗(yàn)。
1.2 預(yù)期效果
從下圖可以看出,整個(gè)發(fā)票識(shí)別表單從設(shè)計(jì)到配置不到 10 秒即可完成,無需開發(fā),無需尋找適配接口對(duì)接,更不需要專業(yè)的技術(shù)人員去維護(hù)。
2. 操作步驟
1)在表單中添加「文字識(shí)別」字段:
2)添加好字段后選擇需要識(shí)別的內(nèi)容進(jìn)行配置,簡(jiǎn)道云支持以下內(nèi)容的 OCR 識(shí)別:通用文字/身份證/增值稅發(fā)票/營(yíng)業(yè)執(zhí)照/駕駛證/行駛證/銀行卡/火車票。
3)確認(rèn)需要識(shí)別的內(nèi)容后,根據(jù)內(nèi)容設(shè)置識(shí)別規(guī)則。
3. 多端使用
除了管理員設(shè)計(jì)、配置簡(jiǎn)單,成員使用也十分便捷。只需上傳需要識(shí)別的圖片,即可由系統(tǒng)自動(dòng)填寫,更支持 PC 端、移動(dòng)端、Pad 端等多端同步使用。無論是辦公室管理人員還是一線操作工人,都可以通過 OCR 快速完成數(shù)據(jù)錄入工作。下面以增值稅發(fā)票為例演示演示 PC 端與移動(dòng)端文字識(shí)別過程:
PC 端:
移動(dòng)端:
4. 文字識(shí)別日志
管理員可以在「企業(yè)管理>> 版本信息」中查詢文字識(shí)別日志。
在識(shí)別日志中可以查看操作人、識(shí)別時(shí)間、消耗次數(shù)以及是否成功等基本信息。識(shí)別日志僅保留最近六個(gè)月的識(shí)別信息。
5. 注意事項(xiàng)
1)OCR 識(shí)別后不論是否儲(chǔ)存原文件,都將消耗附件量。(附件量指的是附件流量,上傳即消耗)
2)OCR 識(shí)別非 100% 精準(zhǔn),目前市面上的接口均無法保證 100% 識(shí)別,上傳的內(nèi)容越清晰越容易被識(shí)別。目前我們調(diào)用的是百度 OCR 識(shí)別接口,具體技術(shù)限制還可以參考百度官方文件。