[爆卦]Python requests 爬蟲是什麼?優點缺點精華區懶人包

為什麼這篇Python requests 爬蟲鄉民發文收入到精華區:因為在Python requests 爬蟲這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者truth1999 (真)看板Python標題[問題] 爬蟲 - requests後的資料查詢 ...


大家好,小弟剛接觸python幾天...
有個資料查詢的問題一直無法解決
(http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx )

該網站查詢的資料結果是url不變並以js呈現(請見諒非本科系的形容@@")
且結果若超過60筆,才會出現下一頁的按鈕可以點選

所以碰到的問題是在顯示資料之前
第2、3頁...下一頁的按鈕不會出現
而按鈕的方式是以javascripl:__doPostBack的方式寫入

因此問題有兩個:
1.我該如何才能獲得第1頁之後的資料
目前查到的方法好像要利用requests.session方法
但是怎麼寫都跑不出來

2.有辦法可以在查詢後,直接利用"下載"這個按鈕下載資料嗎
爬文後不知道能否利用request後,再配合selenium
只是找到的文章大多是利用cookie帶入,好像不適合這個網頁


不知道是否有善心版友可以協助指導新手...
以下附上查詢的code跟試著加入session的code

單純查詢一次性資料:
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import pandas as pd

resp =
requests.get('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx')
soup = BeautifulSoup(resp.text, 'html5lib')

view_state = soup.find(id='__VIEWSTATE')['value']
event_validation = soup.find(id='__EVENTVALIDATION')['value']
viewstate_generator = soup.find(id='__VIEWSTATEGENERATOR')['value']
form_data = {
'__VIEWSTATE': view_state,
'__VIEWSTATEGENERATOR': viewstate_generator,
'__EVENTVALIDATION': event_validation,
'ctl00$contentPlaceHolder$txtStartDate':'106/12/01',
'ctl00$contentPlaceHolder$txtEndDate':'107/03/15',
'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$radlMarketRange':'P',
'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$lstMarket':'109',
'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$radlProductType':'V',
'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$lstProduct':'FA0',
'ctl00$contentPlaceHolder$dropProductClass':'1',
'ctl00$contentPlaceHolder$btnQuery':'查詢'
}

resp =
requests.post('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx',
data=form_data)
df = pd.read_html(resp.text)[6].dropna(axis=0, how='any')
print(df)

---------------------------------------------------------------------------

加上session,但是資料一直無法跳到第2頁> < :

import requests
from bs4 import BeautifulSoup
import pandas as pd

resp =
requests.get('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx')
soup = BeautifulSoup(resp.text, 'html5lib')

with requests.session() as s:
s.headers['user-agent'] = 'Mozilla/5.0'
soup = BeautifulSoup(resp.content, 'html5lib')
target = (
'ctl00$contentPlaceHolder$dataPager$ctl02$ctl{:02d}'
)

# unsupported CSS Selector 'input[name^=ctl00][value]'
data = { tag['name']: tag['value']
for tag in soup.select('input[name^=ctl00]') if tag.get('value')
}
state = { tag['name']: tag['value']
for tag in soup.select('input[name^=__]')
}

data.update(state)

view_state = soup.find(id='__VIEWSTATE')['value']
event_validation = soup.find(id='__EVENTVALIDATION')['value']
viewstate_generator = soup.find(id='__VIEWSTATEGENERATOR')['value']
form_data = {
'__VIEWSTATE': view_state,
'__VIEWSTATEGENERATOR': viewstate_generator,
'__EVENTVALIDATION': event_validation,
'ctl00$contentPlaceHolder$txtStartDate':'106/12/01',
'ctl00$contentPlaceHolder$txtEndDate':'107/03/15',
'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$radlMarketRange':'P',
'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$lstMarket':'109',

'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$radlProductType':'V',
'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$lstProduct':'FA0',
'ctl00$contentPlaceHolder$dropProductClass':'1',
'ctl00$contentPlaceHolder$btnQuery':'查詢'
}

#
data['ctl00$FhMainContent$FhContent$ctl00$AnalysesCourse$CustomPager$total']
resp =
requests.post('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx',
data=form_data)
soup = BeautifulSoup(resp.text, 'html5lib')
sl = soup.find_all("span")
last_page = '+'.join([span.get_text() for span in sl][-2])

# for page in range(last_page + 1):
for page in range(int(last_page)):
data['__EVENTTARGET'] = target.format(page)
df = pd.read_html(resp.text)[7].dropna(axis=0, how='any')
print(df)

謝謝大家

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.170.50
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1521254934.A.7ED.html
※ 編輯: truth1999 (180.217.170.50), 03/17/2018 10:51:12
froce: 你都用selenium了,就直接用selenium模擬點擊就好。 03/17 11:17
froce: 這網站不需要登入也能下載,你應該不用去考慮cookies問題。 03/17 11:18
froce: 當然如果要快的話,還是得用requests去找ajax的網址去取得 03/17 11:22
froce: 結果。 03/17 11:22
froce: 另外他是用ajax去取下一頁,每次傳回一頁(60筆)的結果(htm 03/17 11:30
froce: l)。 03/17 11:30
froce: __doPostBack('ctl00$contentPlaceHolder$dataPager$ctl01$ 03/17 11:30
froce: ctl0「頁數減1」','') 03/17 11:30
froce: 上面是他控制頁數的javascript機制。 03/17 11:31
是的,只是妙的是,它的"下一頁"js的控制頁數都是使用
ctl00$contentPlaceHolder$dataPager$ctl02$ctl00,並且不會變動
所以我原本想簡單一點,直接由結果抓到共x頁,然後執行x-1次換頁即可

froce: 詳細的話,得教你怎麼看browser的開發者工具,才能講得清 03/17 11:32
froce: 楚。 03/17 11:32
froce: 只能說你選錯網站了,新手沒網頁整體基礎學爬蟲,爬到asp w 03/17 11:35
froce: eb form就是個悲劇,最簡單就是利用selenium去模擬人點擊了 03/17 11:35
froce: 。 03/17 11:35
truth1999: 請問f大,所以儘管它是使用doPostBack,還是可以將 03/17 11:49
truth1999: ajax所得到html解出來嗎? 03/17 11:51
truth1999: 一開始是學selenium,不過碰到選日期的年、月卡住 03/17 11:52
truth1999: 選不了年跟月,所以才學requests,途中也發現我好像選 03/17 11:53
truth1999: 錯網站了(選到大魔王之類的...),先謝謝您的回覆,感恩 03/17 11:53
froce: 他執行選頁動作後,傳回的結果就是當頁的html。 03/17 13:18
froce: 另外你要選日期,就照日期格式,對input做.send_keys()就 03/17 13:22
froce: 行了啊。 03/17 13:22
froce: input.send_key("107/03/17")類似這樣。 03/17 13:22
froce: 基本上,asp web form會送很多框架使用的request field, 03/17 13:25
froce: 並且使用ajax去做很多的動作,很容易造成初學爬蟲者混淆。 03/17 13:25
vi000246: 還好啦 asp.net都是用固定的控制項 去網路找一定有解法 03/17 14:21
vi000246: 不像其他網頁 各種換頁方式都有 解讀起來比較複雜 03/17 14:22
vi000246: 你按F12 觀察它換頁按鈕的html 會呼叫javascript 03/17 14:29
vi000246: 按下去會將值賦到隱藏欄位再post 再觀察network 03/17 14:29
vi000246: 裡的變數 就大概知道asp.net運作的原理了 03/17 14:30
froce: 我們看慣的當然還好啊。哈 03/17 14:32
vi000246: https://imgur.com/a/PSR5L 03/17 14:33
vi000246: asp.net的網頁是最好google的 不像其他的要靠臨機應變XD 03/17 14:33
alansyue: selenium 03/17 14:51
froce: 哈,v你這樣說也對,因為看到要爬都已經習慣性的開開發者模 03/17 17:20
froce: 式直接看送啥request了,根本沒想到對asp web form來google 03/17 17:20
froce: 爬蟲。Orz 03/17 17:20

謝謝f大、v大跟a大的回覆與建議,v大提到的部份我有注意到
承上回覆,所以我有嘗試將換頁按鈕js的dopostback參數寫入。
不管是頁碼按鈕(值為頁數-1)、或者是下一頁按鈕(值不變),
還是寫不出如何在第一次取得requests後,再送出eventTarget
來拿到下一頁的查詢結果...

可能是因為此網站的設定是,要取到第一次的查詢後,
才會觀察(搜尋?)到eventTarget,所以這是我困擾的點><
※ 編輯: truth1999 (180.217.170.50), 03/17/2018 18:02:07
coeric: 注意第二頁開始,有多些參數要送 03/18 01:09
coeric: hfldTransVolume、hfldTransAmount、hfldAvgPrice 這三個 03/18 01:10
coeric: 我可正常爬完(不過code很亂,整理完再分享了) 03/18 01:11
truth1999: 謝謝c大指點,我自己也來試試看 03/18 02:24

謝謝C大的資訊,真的在第二頁開始加上參數就可以了
超級感謝您
※ 編輯: truth1999 (180.217.170.50), 03/18/2018 14:07:34
coeric: 一樓的froce才是重點,要去看開發者模式 03/19 13:15

你可能也想看看

搜尋相關網站