[爆卦]web scraper教學是什麼?優點缺點精華區懶人包

為什麼這篇web scraper教學鄉民發文收入到精華區:因為在web scraper教學這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者adwx1973 (adwx1973)看板Python標題[閒聊] 想跟 Web Scrapin...



As title,

之前網路上看了些 Python 爬蟲基本教學,

正試著從證交所爬蟲建立 財報/股價 資料庫。


但沒多久就發現幾個問題:

1. 每天爬取公司股價,經常性斷線,

加上 Header; time.sleep(); 之類的都用上了,

想請益更有效率,穩定自動斷點續傳的技術。


2. 財報 PDF 想要自動化下載,

因為隱藏網址似乎是 jsoncallback 產生的,

並且網址當中一部分是隨機數 or 現在時刻(時分秒),

這方面沒辦法突破。

也有試過 selenium + firefox webdriver,

不過也是卡在多個頁面切換的操作無法 Loop。



想請益版上這方面的高手,這些部分怎麼用 code 實現,

如果人在高雄有時間也可以約出來,我可以請你吃飯~

非常感謝!!

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.236.32.144
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1537500697.A.DE8.html
f496328mm: crontab 排程自動化 09/21 12:58
supisces: 反爬蟲? 09/21 15:54
areyo: 推同在高雄 09/23 23:28
totte: 1證交所股價下載還蠻穩的丫 我幾乎沒出過問題 你是下載json 09/25 04:56
totte: ? 09/25 04:56
totte: 2財報為何要下載pdf? 印象中有csv之類的原始資料可下 也史 09/25 04:57
totte: 容易分析 09/25 04:57
adwx1973: 是在個股日成交資訊那邊抓,持續一段時間後會斷 09/25 11:00
adwx1973: 公開資訊觀測站有IFRS的財報XBRL,可是有些會計科目的細 09/25 11:03
adwx1973: 項不在那裏面,必須要去原始的PDF檔裡面找 09/25 11:04

你可能也想看看

搜尋相關網站