[爆卦]pdf ocr文字辨識是什麼?優點缺點精華區懶人包

為什麼這篇pdf ocr文字辨識鄉民發文收入到精華區:因為在pdf ocr文字辨識這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者Linethan (我要什麼?)看板MAC標題[軟體] PDF文字辨識(OCR) 有推薦的軟體嗎...


小弟時常會下載學術文獻pdf檔
在mac上或是iPad上閱讀
許多比較古老的文獻 似乎都是掃描檔
看起來都是文字 但是無法選取文字 (被視為"圖片"的樣子)
所以在閱讀pdf時 無法畫重點

需求:
將PDF中的文字變成可以選取跟搜尋

已試過: Adobe Acrobat
可以達到我的需求, 但是....它好貴Orz
所以我想問問有沒有其他推薦的軟體?
要付費購買沒關係 希望比較便宜點就好

已經google過, 找到許多pdf文字辨識的線上服務
但都是將pdf轉換成word檔或是txt檔
我希望的是維持pdf檔, 而且不要改變文章的字體格式外貌等等
只是純粹將內文變成可以選取以及搜尋

請問有推薦的軟體嗎?

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.7.61
※ 文章網址: https://www.ptt.cc/bbs/MAC/M.1516096873.A.453.html
yhli817: 先把 PDF 檔匯出成圖片檔,再用 OneNote 擷取看看?(之 01/16 18:13
yhli817: 前用手機拍照再擷取有成功,這樣也沒更改到原始檔的格式 01/16 18:13
yhli817: https://goo.gl/JAV8iZ 01/16 18:16
Linethan: 感謝yh大回覆 我有試過OneNote 但它好像是把文字擷取 01/16 18:27
Linethan: 出來在旁邊 而不是直接把原始pdf檔裡的文字變得可選取 01/16 18:27
Linethan: 不知道是不是我使用方式錯誤? 01/16 18:28
Linethan: 我不是要把pdf檔裡的文字抓出來而已 通常抓出來也沒用 01/16 18:29
Linethan: 因為我看的文獻都夾雜很多數學符號式子 通常那些被抓出 01/16 18:30
Linethan: 來後都會亂七八糟無法閱讀..... 01/16 18:30
MilchFlasche: 數學式更難了吧…… 01/16 18:35
cmotpetb: 畫線改用方框 搜尋就沒辦法了 OCR麻煩 01/16 18:52
cmotpetb: 沒有什麼無腦方便的作法 01/16 18:52
reminiscence: Ocrkit 01/16 19:14
MuiMui: 數學式還沒看過可以完美ocr的@@ 01/16 20:04
vi000246: 太難...你有錢可能還找不到人幫你做 01/16 21:01
vi000246: 現在的技術頂多就轉成文字而已 要維持排版.. 01/16 21:01
vi000246: 還有數學符號 那應該無解了 可能連轉成text都無法 01/16 21:02
vi000246: 你可以試試找高手 http://cat.prhlt.upv.es/mer/ 01/16 21:04
vi000246: 但是我估起碼5~10萬起跳 01/16 21:05
vi000246: 都有Adobe Acrobat了 有需求就買下去吧 01/16 21:07
Qawww: 如果是英文的話 把圖片上傳google雲端 然後用文件方式開啟 01/16 22:21
Linethan: Qa大大說的方法我也試過 但是google文件開啟後就不再是 01/16 23:21
Linethan: pdf檔了 那也是把文字擷取出來另外變成word檔 01/16 23:21
Linethan: vi大 所以我要的並不是把pdf內容抓出來另存成文字檔啊 01/16 23:26
Linethan: 那樣抓出來一定會亂 數學符號多半也抓不太出來 01/16 23:27
Linethan: 我只是希望pdf內容的文字(夾雜數學)變得可以選取就好 01/16 23:27
Linethan: Adobe Acrobat的確可以做到我要的 不過實在很貴 01/16 23:28
Linethan: 所以我才想問問有無其他能達到近似效果的軟體 01/16 23:28
Linethan: remin大說的Ocrkit 好像可以做到Adobe Acorbat的效果! 01/17 00:08
Linethan: 也比較便宜 感謝! 01/17 00:08
blackkaku: 放到evernote裡面? 01/17 01:14

你可能也想看看

搜尋相關網站