[爆卦]爬蟲被擋是什麼?優點缺點精華區懶人包

為什麼這篇爬蟲被擋鄉民發文收入到精華區:因為在爬蟲被擋這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者pig98520 (Jimmy)看板Python標題[問題] pandas爬蟲被擋下來時間Thu...

爬蟲被擋 在 Miss Atomic Bomb Instagram 的最佳解答

2020-05-09 10:53:30

科學家發現,人在壓力下,大腦決策機制有如爬蟲類的腦,這時所做的決定,不是基於愛,而是為了求生存。 爬蟲類的任何行為都是出於恐懼與求生,人在壓力和忙碌下,也是如此。 受到壓力時,愛的念頭會被排到最後,「爬蟲腦」啟動,我們的腦變成像爬蟲類一樣思考,只想著該如何度過一天,誰要是擋在前頭就會被吞食。 但有個...


各位版大好,剛接觸python爬蟲沒多久,想要嘗試抓取網站表格,

隨便找了個股票網站,http://stock.nlog.cc/b/1101

原本是使用bs4來爬,但是後來發現有pandas可以抓取表格,

因此想要嘗試使用pandas,

程式碼如下:

import pandas

url='http://stock.nlog.cc/b/1101'

pd=pandas.read_html(url)

print(pd)


但是卻出現了

ConnectionResetError: [WinError 10054] 遠端主機已強制關閉一個現存的連線。

這樣的文字,但是我嘗試抓別的網站,卻都沒有問題,

想問一下這是甚麼狀況?是被擋下來了嗎?該怎麼解決?

先謝謝各位了~

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.226.218.20
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1519281042.A.9C5.html
ckc1ark: 他會檢查是否有傳User-Agent的樣子 02/22 16:21
OnePiecePR: from fake_useragent import UserAgent 02/22 19:39
pig98520: 我加上了header仍然會出現同樣的問題耶~ 02/22 23:33
WunoW: 我有讀到,但產生另一個問題是回傳的結果非常非常難看 02/23 01:38
WunoW: 這可能反而是需要花更多時間的地方 02/23 01:39
WunoW: 建議不好用的方法就不要用 02/23 01:39
Kazimir: 其實我是建議你先用req拿回來再給pandas讀啦 02/23 09:49
Kazimir: 這樣速度也會提升不少 02/23 09:50
pig98520: 好的 謝謝~ 02/23 19:44
a830307119: https://tinyurl.com/y7h8n9up 03/03 07:11
ar54971: https://goo.gl/2WCUGr 03/06 03:39
galeondx: https://goo.gl/cybm9m 03/06 04:17
galeondx: https://goo.gl/MKaCK6 03/06 04:30
galeondx: https://tinyurl.com/yadsk3lo 03/06 04:40

你可能也想看看

搜尋相關網站