作者wii8898333
看板Python
標題[問題] 圖片辨識輸出文字
時間Thu Jun 6 02:11:46 2019
目前有乘客文件可以掃描成PDF檔案,想透過程式將身份字號轉譯成文字檔,該透過什麼方
法呢?
這方面有想過可能要透過智慧學習方式提高辨識度
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 39.9.202.92 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1559758308.A.E46.html ※ 編輯: wii8898333 (39.9.202.92 臺灣), 06/06/2019 02:58:32
推 CCWck: 找ocr api 06/06 10:19
→ wii8898333: orc辨識度太低怎麼辦呢 06/06 12:54
→ Hsins: 找足夠的 dataset 自己 train 一個 06/06 15:09
→ Hsins: 問題就在於你有沒有足夠的 data 給他 train,還有你會不會 06/06 15:09
→ Hsins: train… 06/06 15:09
→ hsnuyi: 除非辨識率100% 不然到時候你還不是要人工比對一次? 身分 06/06 16:51
→ hsnuyi: 證字號可以錯喔? 06/06 16:51
→ hsnuyi: 用時新找個工讀抄寫就好 要辨識做啥? 有比較省時便宜又正 06/06 16:55
→ hsnuyi: 確? 06/06 16:55
→ hsnuyi: ^時薪 06/06 16:56
推 wahaha279: 想玩機器學習先叫老闆給資料 不然就是做不到 06/06 17:44
→ ohcE0: 身分證資料多少算是可以錯的? 畢竟有驗證碼欄位 06/06 20:27
→ ohcE0: 資料的話 應該已經算是很好自行產生的了 06/06 20:29
→ vi000246: 手寫還是印刷的字? 06/06 23:06
→ wii8898333: 印刷 06/07 06:37
推 king22649: 印刷的 tesseract 就行了 畫值不要太低的話 06/07 07:17
推 art1: 買個專業的 OCR 軟體來辨識比較實在一些 06/07 16:02
→ MasterChang: 印刷的用tesseract去串接就好..... 06/08 00:57