[爆卦]ptt爬蟲scrapy是什麼?優點缺點精華區懶人包

為什麼這篇ptt爬蟲scrapy鄉民發文收入到精華區:因為在ptt爬蟲scrapy這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者sky800507 (B翰)看板Python標題Re: [問題] 爬蟲新手請益時間Mon Jan...

ptt爬蟲scrapy 在 工具王 阿璋 Instagram 的最佳解答

2021-04-04 20:32:18

【#程式教學】凡走過必留下痕跡😱😱😱 網路爬蟲是什麼🐛?  「凡走過必留下痕跡,你逃不過我的手掌心!」 欸?這根本就是網路爬蟲的代名詞呀!  🗣今天來分享從網路獲取資料的技術: 👉🏻「網路爬蟲」 👉🏻英文稱做Web Crawler or Web Scraping,  在抓取網頁資...


※ 引述《ntumath (math mad)》之銘言:
: 大家好,小弟我打算在這個寒假要學爬蟲
: 網路上我自己可以查到有BeautifulSoup,Scrapy,Selenium這三種
: 想請問這三種爬蟲有難易之分嗎,還是就先選定一種順順的學下去就好?

剛好有人問到,小弟又會一點點爬蟲,所以幫忙回答一下!

1. requests -> 擷取資訊。 將網頁上的資訊擷取下來,一般常用get還有post的方法
2. selenium -> 擷取資訊。 遇上一些比較難搞的動態網頁,
如Facebook的社團是沒辦法用API來取得資訊,
這時候就會用selenium操縱真實的瀏覽器來擷取資訊
3. BeautifulSoup -> parser剖析器。 將抓取回來的網頁資訊用DOM的方式剖析,
更容易取得網頁標籤裡的內容
4. Scrapy -> 爬蟲框架。 可以更有效率的去管理與執行爬蟲專案

所以一般需求的網路爬蟲直接使用requests與selenium獲取資料,
BeautifulSoup剖析資料就能夠滿足需求

比較具規模的爬蟲專案可能就會使用scrapy框架
(一樣會用到requests, selenium, BeautifulSoup)

學習的順序應該是1、3先,再來2,最後再4

如說明有誤或不齊全,歡迎補充或指正!!

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.152.16
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1484581012.A.236.html
max80713: 感謝sky大解說~ 01/17 02:08
jia1013: 感謝sky大 01/17 03:29
exthrash: 推! 01/17 05:26
sky800507: 補充一下,正規表達在爬蟲也很常用到 01/17 12:46
king4647: 也可以學xpath 不錯用 01/19 11:03
sky094315: 推。想請問一下大大,想熟練使用requests的用法要搜尋 01/27 14:19
sky094315: 哪些關鍵字?因為我在網路上找到的幾乎都是使用Beautif 01/27 14:19
sky094315: ulSoup,謝謝 01/27 14:19

你可能也想看看

搜尋相關網站