[爆卦]Python爬蟲 問題是什麼?優點缺點精華區懶人包

為什麼這篇Python爬蟲 問題鄉民發文收入到精華區:因為在Python爬蟲 問題這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者senso ( )看板Python標題[問題] 網頁爬蟲問題時間Wed Aug 8 23:40...


大家好,小弟在用python抓網頁遇到點問題

有些網頁的內容是透過js宣染畫出來的
所以我使用chromedriver的headless方式去抓取

抓pchome的商品清單,我可以抓到資料,
輸出的商品清單.html裡可看到商品
可是商品明細頁卻無法,只看到像是基本的base from

我有爬過momo,yahoo,博客萊都有成功,就只有pchome會這樣
不曉得問題出在哪裡
請大大幫忙,謝謝

附上source code
https://github.com/godanimalsenso/PyWebTtest

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.143.183
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1533742845.A.B34.html
s860134: 加個 sleep 等 ajax 把網頁渲染完成 08/09 00:51
s860134: 商品明細頁面資料是用 js 拉後台資料庫的資料再顯示上去 08/09 00:52
s860134: 所以你只等 html load 完直接跑 page_source 就啥都沒 08/09 00:53
s860134: 當然要聰明一點可以加個 code 去檢查 js load 完了沒 08/09 00:53
senso: 沒想到會是這樣的問題@@ 08/09 03:42
senso: 我加了time.sleep(1)確實有出來了 08/09 03:42
senso: 我會再去找檢查js load ,謝謝 08/09 03:43
b24333666: pchom 要去看network的hxr 裡面有一個文件滿滿的jso 08/09 07:13
b24333666: n格式 08/09 07:13
coeric: 推樓上,有json 08/09 09:37
senso: 抓xhr是比較快,不過我四個站都是css selector抓指定欄位 08/09 19:46

你可能也想看看

搜尋相關網站