作者yoz4ni (yoooooz)
看板Python
標題[問題] 爬蟲 Google search
時間Tue Jun 9 11:25:13 2020
請問一下
再拿到 response 後用 tag 去找資料會失敗
為什麼我執行的時候很容易失敗
https://i.imgur.com/xs0Hu1x.jpg 偶爾會成功
https://i.imgur.com/LF6VOjR.jpg 我 header 放
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
請問有人有遇到過這樣的問題嗎?
我後來把 cookie 也全部加進去也沒效 QQ
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.125.46.7 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1591673115.A.586.html
→ pmove: 失敗時,回傳的資料是? 06/09 12:22
→ mychiux413: 找看看有沒有'recaptcha'的id,有的話就是機器人在擋 06/09 12:30
→ mychiux413: 爬google的所有動作最好是每5秒動一次比較安全 06/09 12:31
→ mychiux413: 如果recaptcha跳出來,可以休息10分鐘後再來 06/09 12:32
→ yoz4ni: 回傳的資料如果是找 tag 的話是沒資料的(空的) 06/09 14:55
→ yoz4ni: 請問是 recaptcha 的話要在哪裡才能看的到呢? 06/09 14:56
→ alvinlin: 另Google Custom Search API 也參考 06/09 15:59
→ alvinlin: 有API用API吧。爬東西很累人的 06/09 15:59
→ mychiux413: 會有一個element的id叫做'recaptcha', 可以用bs4找 06/09 16:05
→ alvinlin: 找到recaptcha也沒用。破解不了的 06/09 16:22
→ OrzOGC: 一個人硬幹是贏不過google那些工程師的 06/09 18:00
→ yoz4ni: 因為我是在練習,所以想說不去用 API 來抓資料看看 06/10 02:24
→ yoz4ni: 還是說這樣的練習其實是不需要的OAO 06/10 02:24
→ yoz4ni: 我晚點去把回傳資料找看看有沒有 id 是 recaptcha 的 06/10 02:26
→ alvinlin: 也不是這樣說。因為看你已經正確抓到資料了,所以你的程 06/10 03:13
→ alvinlin: 式沒問題。但你如果是要去對付reCaptcha這我試過沒找到 06/10 03:13
→ alvinlin: 方法。所以你只能繞道。剛好這個有API那應該試著用其他 06/10 03:13
→ alvinlin: 方法取得資料,而不是和它硬幹。 06/10 03:13
→ vi000246: 通常google有api的東西就不要自己爬了 贏不了google工程 06/10 09:07
→ vi000246: 師的 06/10 09:07
→ shadowjohn: 爬的內容你連續多抓幾個分頁頻率一高就被檔了 06/10 09:26
推 femlro: 我有時候手動搜尋快一點都被擋了 何況爬蟲 06/10 16:26
推 aidansky0989: 只有更新cookies還不夠,IP時間等等都要調 06/10 16:35