[爆卦]python pdf轉文字是什麼?優點缺點精華區懶人包

為什麼這篇python pdf轉文字鄉民發文收入到精華區:因為在python pdf轉文字這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者noworneverev (小朋友)看板Accounting標題[心得] PDF轉Excel 使...


# PDF2Excel用途
將PDF檔案裡的表格轉成Excel格式輸出,並搭配VBA將格式轉成可運算的儲存格。

## 下載(免安裝)
PDF2Excel.exe: https://tinyurl.com/yaxku6bj
及搭配使用的VBA : https://tinyurl.com/yd7t5m9b

## Demo
短片演示: https://i.imgur.com/WCbBVIe.gif
影片演示: https://youtu.be/0vEI2oiTanM (含安裝VBA增益集)

## 使用限制
此程式適用於無須OCR的PDF,且檔案裡的表格必須要有格線,僅測試於Windows作業系統。

## 使用方法
點開PDF2Excel.exe,無須安裝,開啟程式可能會需要點時間,選擇PDF檔案存放的資料夾
,批次轉換資料夾內所有PDF檔案成Excel檔案,只轉換PDF檔案裡的表格,文字區塊一律
跳過,Excel工作表命名原則以PDF頁碼當作工作表名稱,例如轉換第一頁的表格,
輸出的Excel工作表名稱為"Sheet1";若一頁裡偵測到多個表格,例如第三頁有兩個表格
,輸出"Sheet3_1"、"Sheet3_2",PDF檔案的表格若無格線將無法轉出。

輸出Excel檔案後,使用上方提供的增益集(Text2Column.xlam),將字串轉成Excel可運算
的儲存格。

轉換僅在本地端執行,無須擔心資料外洩,若有疑慮請詳下方原始碼。

## 開發源由
近幾天知道好像有客戶在提供PBC時會是用PDF檔案提供,雖然自己從來沒遇過,
但曾身為查帳員,光想像就有點想哭QAQ,所以花了點時間寫這支小程式,
此程式以Python開發,使用轉換精準度最高的函式庫,再搭配另一支VBA小程式,
可快速將檔案轉成查帳可使用的格式。

## 給開發者
以Python寫成,關鍵的轉換只有十幾行程式,若已有Python環境可參考
PDFPlumber github的文件自行客製參數,若熟pandas可以再更進一步依照提取出的
資料另做處理。

pip install pdfplumber
pip install pandas

開放原始碼:https://github.com/noworneverev/PDF2Excel
若覺得這個程式對你有幫助,可以幫小弟按個星星我會很開心<( ̄︶ ̄)>

--
Accoding: https://www.facebook.com/AccodingTW/

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.76.137.79 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Accounting/M.1593183767.A.117.html
ASSETS401 : 真強者捏! 06/27 09:44
hewei525 : 強者推推! 06/27 10:31
※ 編輯: noworneverev (42.76.137.79 臺灣), 06/27/2020 11:04:12
richuncle97 : 推 06/27 12:34
yayayagogo : 推強者 06/27 18:58
※ 編輯: noworneverev (223.136.144.242 臺灣), 07/04/2020 20:22:21

你可能也想看看

搜尋相關網站