[爆卦]JS render 爬蟲是什麼？優點缺點精華區懶人包

為什麼這篇JS render 爬蟲鄉民發文收入到精華區：因為在JS render 爬蟲這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者ec2242 (當場輾斃)看板Python標題[問題] 爬取JS render網站時間Tue S...

作者ec2242 (當場輾斃)

看板Python

標題[問題] 爬取JS render網站

時間Tue Sep 1 22:14:21 2020

最近在練習爬蟲想爬104的頁面

但無奈遇到頁面是由JS render的(拿愛奇藝當範例)

目前code如下:

import requests
from bs4 import BeautifulSoup

url = 'https://www.104.com.tw/company/1a2x6bkonm'
headers = {
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/84.0.4147.135 Safari/537.36',
'Referer':
'https://www.104.com.tw/company/1a2x6bkonm'
}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'lxml')

print(soup)

無奈輸出後body只有
<div id="globalbar">
<div id="bar_m104">
<div id="global_bk">
剩下全沒了

想請問要怎麼爬取這種類似網頁呢? 謝謝!

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.164.3.112 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1598969663.A.D10.html

→ TakiDog: 打開F12 切換到Network 按下XHR 你要的資料在那 09/01 22:42

→ chickengod: from selenium import webdriver 09/01 23:13

推 bdbddbdb: 用F12看你要的資料是怎麼出來的，真的不行就用selenium 09/02 22:09

推 alansyue: 找 api 看看 09/05 11:45

推 hakosaki: 有一隻 api 但好像要帶token之類的 09/08 11:05

推 aidansky0989: 建議你先寫網頁程式，連網頁都不會寫運維不用反爬， 09/14 13:58

→ aidansky0989: 你就不知道怎麼搞 09/14 13:58

→ aidansky0989: 前端對後端接口發ajax請求，返回的是json數據，json 09/14 13:59

→ aidansky0989: .loads(request.body.decode()) 09/14 13:59

推 ToastBen: requests-html可以render，若遇到ddos protection還是得 09/21 01:11

→ ToastBen: 靠selenium.webdriver 09/21 01:11

[爆卦]JS render 爬蟲是什麼？優點缺點精華區懶人包

為什麼這篇JS render 爬蟲鄉民發文收入到精華區：因為在JS render 爬蟲這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者ec2242 (當場輾斃)看板Python標題[問題] 爬取JS render網站時間Tue S...

你可能也想看看

搜尋相關網站

#1Node.js-Backend見聞錄(29)：進階實作-關於爬蟲 - iT 邦幫忙

#2如果网页内容是由javascript生成的，应该怎么实现爬虫呢？ - 知乎

#3爬蟲技術:(JavaScript渲染)動態頁面抓取超級指南 - IT人

#4[問題] 爬取JS render網站- 看板Python - PTT數位生活區

#5Python爬蟲：Selenium+ BeautifulSoup 爬取JS渲染的動態內容 ...

#6python-爬虫-js-渲染-html - CSDN博客

#7抓取前端渲染的页面 - WebMagic

#8爬蟲爬取動態網頁的三種方式簡介_K0rz3n's Blog - MdEditor

#9Python爬蟲學習筆記7：動態渲染頁面爬取- 碼上快樂

#10前端工程師後端之旅(6) — 利用爬蟲取得網站原始商品資料

#11小白學Python 爬蟲（39）： JavaScript 渲染服務scrapy-splash ...

#12[译] Python 爬虫技术：JavaScript 渲染动态页面抓取超级指南

#13[筆記] 超新手也能用Python 爬蟲打造貨比千家的比價網站

#147-动态渲染页面抓取 - Python3网络爬虫开发实战

#15[問題] 爬取JS render網站- 看板Python - 批踢踢實業坊

#16【网络教程】Python爬虫一个requests_html模块足矣！（支持 ...

#17Python Taiwan | # [ 爬蟲案例分享] 104 人力銀行 - Facebook

#18Node.js爬蟲實戰：如何query動態網頁資料 - Alex Liang

#19C# 透過Puppeteer Sharp取得網頁前端渲染完整HTML - - 點部落

#20Python爬虫抓取之客户端渲染(CSR)页面抓取方法 - 看云

#21爬虫实现前端页面渲染 - TesterHome

#22Python爬虫：splash+requests简单示例 - 伙伴云

#23Python爬蟲小白入門（四）PhatomJS+Selenium第一篇 - ZenDei

#24纯js如何做爬虫- OSCHINA - 中文开源技术交流社区

#25requests_html 中使用浏览器渲染js时修改headers信息 - 腾讯云

#26JavaScript 渲染服务scrapy-splash 入门- 极客挖掘机 - 博客园

#27前後端分離要用SSR? Server side render (SSR)是什麼嗎？跟 ...

#28爬虫爬取动态网页的三种方式简介 - K0rz3n's Blog

#29兩週從爬蟲小白變大神，看完你就知道我不是標題黨了【五萬字 ...

#30Python爬虫：splash+requests简单示例 - 华为云社区

#31在线博客转PDF电子书| JS爬虫初探 - 掘金

#32爬虫技术之渲染js | 君莫笑的博客 - GitHub Pages

#33如何用websocket抓取JS渲染頁面 - 台部落

#34[教學] CSR 和SSR 的差別是什麼? CSR 和SSR 的超詳細比較!

#35Prerender.io如何幫助CSR的SEO - 原理介紹與使用教學

#36【SEO攻略】JavaScript是什麼？如何讓Google 爬取網頁？ (上)

#37動態頁面的爬蟲你爬不下來吧！ajax爬蟲是你必須掌握的必備 ...

#38两周从爬虫小白变大神，看完你就知道我不是标题党了 - BiliBili

#39從基礎Python 帶你學會寫爬蟲I - 六角學院

#40[系列活動] Python 爬蟲實戰

#41【問題】爬蟲無法取得網頁部分HTML程式碼 - 哈啦區

#42Python爬虫利器四之PhantomJS的用法 - 简书

#43node 爬蟲| puppeteer js | 來抓網頁的圖| 實際案例| 抓正妹的圖

#44基于Nodejs,superagent,cheerio的在线web爬虫项目，支持 ...

#45Python爬虫：splash+requests简单示例_彭世瑜的技术博客

#46資料爬蟲 - 資料科學家的工作日常

#47JavaScript SEO 終極指南(SEOer必看)

#48Hydration: Server-side rendering + Client-side rendering (下)

#49server.js · 專題菁英班- JavaScirpt爬蟲專案 - Hsueh-Jen

#50Next.js 入門：從CRA 與Prerender 進化至Next.js 的歷程

#51【SEO攻略】JavaScript是什麼？如何讓Google 爬取網頁？ (上)

#52python-爬虫-js-渲染-html - 代码先锋网

#53「網頁爬蟲」在職進修、線上學習、共學教室

#54Splash-js渲染-爬虫 - EvilRecluse

#55pyspider 爬虫教程（三）：使用PhantomJS 渲染带JS 的页面

#56自學程式如何快速入門- 以Python/JS 為例- 線上教學課程 - Hahow

#57Day13 - 網頁前端II.

#58如何檢測我的Nodejs 服務器上的爬蟲流量(How to detect ...

#59requests-html如何在python爬虫中使用- 开发技术 - 亿速云

#60Scrapy爬虫中使用Splash抓取动态JS页面 - 程序员宅基地

#61[ Python爬虫实战] PhantomJS的安装与使用- pytorch中文网

#623.4 选学：爬虫的难点- Python-101 - GitBook

#63Python 爬虫工具Requests-HTML - 文艺数学君

#64python爬蟲中PhantomJS載入頁面的實體方法 - IT145.com

#65爬虫进阶-JS自动渲染之Scrapy_splash组件的使用 - 脚本之

#66在线博客转PDF电子书| JS爬虫初探 - SegmentFault

#67FoxitPhantom2.0用户手册下载_在线阅读- 爱问共享资料

#68python爬虫——爬取用js实现翻页的网站_linzch3的博客-程序员 ...

#69JavaScript 渲染服务Scrapy-Splash 入门 - soolco-博客

#70外行学python 爬虫第十一篇数据可视化 - keinYe

#71Kimurai - 一个Ruby 写的爬虫框架

#72feapder-document: feapder官方文档

#73反制爬虫之Burp Suite 远程命令执行 - Noah Lab

#74React Server-side rendering SEO處理| Ian Chu

#75Dynamic Rendering | Google Search Central | Documentation

#76Python 爬虫- JavaScript 渲染服务Scrapy-Splash 入门