為什麼這篇lurl下載鄉民發文收入到精華區:因為在lurl下載這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者celestialgod (天)看板R_Language標題Re: [問題] 下載網頁連結檔案時...
※ 引述《l111011 (Mr.Pickles)》之銘言:
: 我原本是要從 https://itouch.cycu.edu.tw/active_system/CourseQuerySystem/
: 取表格 , 但是 R 的讀XML的函式貌似沒辦法讀這種動態網頁
: http://i.imgur.com/cmIYmjh.png
: 所以我改去嘗試下載上圖的連結
: 看了一下F12 , 要下載這個連結似乎要用HTTR中的POST
: 參考了 http://leoluyi.logdown.com/posts/406397-crawler-mops-2
: 的方法
: 但是
: http://i.imgur.com/sBuTzm9.png
: 這個連結直接把上一頁資料塞在From data 給他轉成xls
: 看起來要用httr下載此連結應該不行(要傳上一頁資料)
: 請問有什麼方法
library(httr)
library(pipeR)
url <-
"https://itouch.cycu.edu.tw/active_system/CourseQuerySystem/GetCourses.jsp"
courseInfo <- POST(url, query = list(yearTerm = 1052)) %>>% content("text")
x <- strsplit(strsplit(courseInfo, "@@")[[1]], split = "|", fixed = TRUE)
do.call(rbind, x[-1])
結果圖:
http://imgur.com/a/jZvHN
url是從開發者工具找到的,找到這個連結就可以全部抓下來了
( http://imgur.com/a/XyiMf )
然後給不同yearTerm就可得到不同學年的資料
--
R資料整理套件系列文:
magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9
data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue
dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b
tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz
pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.233.136.9
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1493737909.A.C01.html
※ 編輯: celestialgod (36.233.136.9), 05/02/2017 23:13:47