[爆卦]HTML 爬蟲是什麼?優點缺點精華區懶人包

為什麼這篇HTML 爬蟲鄉民發文收入到精華區:因為在HTML 爬蟲這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者ckcy ( )看板Python標題[問題] 網頁爬...

HTML 爬蟲 在 離島人|Humans Offshore Podcast Instagram 的最佳解答

2021-09-10 22:26:19

⌨️ 聽完週末Robert在離島人的分享後,各位是不是想轉職到海外爽爽躺著賺了呢? 因為科技的發展以及疫情的影響,目前世界各地仍有大量的各種工程師職缺。若有興趣進入這個領域,歡迎參考下面幾個英語平台唷!話說台灣也有很多相關的機構和平台,麻煩👇🏼👇🏼下面留言👇🏼👇🏼讓大家知道你在這唷~ 免費教你學...


大家好
我想讀下面網頁的表格
http://pchome.megatime.com.tw/stock/sto3/ock1/sid6505.html

雖然在在document的sid6505.html裡看得到需要的資料
但是程式讀出來卻讀不出來
只能讀到下面幾行
想請教這個問題該如何解決 非常謝謝
<html>
<head>
</head>
<body>
<form id='submit_form' name='submit_form'
action='http://pchome.megatime.com.tw/stock/sto3/ock1/sid6505.html'
method='post'>
<input type='hidden' name='is_check' value='1' />
</form>
<script type="text/javascript">
document.getElementById('submit_form').submit();
</script>
</body>
</html>

程式碼:
import requests
res =
requests.get("http://pchome.megatime.com.tw/stock/sto3/ock1/sid6505.html")
print (res.text)

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.239.185
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1485354796.A.810.html
※ 編輯: ckcy (123.192.239.185), 01/25/2017 22:57:26
Neisseria: 那個網站是用 JS 生成的,只用 requests 會爬不到 01/25 23:38
Neisseria: 要用 Selenium 或其他類似的工具才爬得到 01/25 23:39
s860134: 不太對喔,是你 header 沒給對,所以他把你擋掉囉~ 01/26 00:40
s860134: 測了一下,server 檢查的是 'Referer' 這個 header 01/26 00:46
s860134: https://goo.gl/2NlaF6 01/26 00:48
Neisseria: 歹勢,搞錯了 @@ 01/26 04:27
ckcy: 謝謝s大!! 問題解決了 01/26 21:00

你可能也想看看

搜尋相關網站