[爆卦]instagram api抓資料是什麼？優點缺點精華區懶人包

為什麼這篇instagram api抓資料鄉民發文收入到精華區：因為在instagram api抓資料這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者wenbuneatble (文本能吃嗎)看板R_Language標題[問題] 用R爬Instag...

作者wenbuneatble (文本能吃嗎)

看板R_Language

標題[問題] 用R爬Instagram

時間Sun Apr 22 15:51:32 2018

[問題類型]:使用R語言爬Instagram流程遇到問題

程式諮詢(我想用R 做某件事情，但是我遇到問題)

[軟體熟悉度]:
入門(寫過其他程式，只是對語法不熟悉)

[問題敘述]:
各位好
因為目前在學校修R相關的課教到爬蟲
爬一般的新聞網站、PTT、購物網站等的大概都可以了
最近想要嘗試爬爬看Instagram
最終目標是爬下特定hashtag以及特定帳戶的貼文
譬如說搜尋#植劇場或是到金酒籃球隊(SBL的球隊公開帳號)
抓下貼文、按讚數、追蹤數等
最後再來看是否能夠做一些分析
現在嘗試過三種方法但都有遇到一定的問題
下方分別敘述

*方法一
使用instaR package
連結：https://github.com/pablobarbera/instaR
這個方法主要是利用instagram developer tool
連接官方的API
但因為instagram官方調整其政策
所以這個package裡面的一些function會被擋
像是searchInstagram() 函數爬 public content就失效了
在instagram developer tool 的 permission review處
(詳細步驟請參考 https://www.r-bloggers.com/analyze-instagram-with-r/)
若選擇自己的需求為
"I want to display hashtag content and public content on my website."
Instagram 的解答是:
"This use case is not supported. We do not approve the public_content
permission for one-off projects such as displaying hashtag based content on
your website. "
所以這個方法目前看來是不OK了

*方法二
使用RSelenium package
連結：https://github.com/ropensci/RSelenium
若需要操作教學的話可以參考
https://vectorf.github.io/2017/07/10/20170710-%E5%88%9D%E6%8E%A2RSelenium/
http://rpubs.com/bigbrotherchen/randseleniumpractice
我目前按照教學操作上沒有太大問題
小提醒一下開啟cmd輸入java...那串之後記得不要關掉cmd!!!

我的作法大致描述如下

# 載入package
library(RSelenium)
library(rvest)
library(tidyverse)
rm(list = ls())
options(stringsAsFactors = FALSE)

username = "這串打你的IG帳號" # <username here>
password = "這串打你的IG密碼" # <password here>
hashtag = "#你要搜尋的hashtag" # <hashtag here>

# 建立連線後開啟instagram登入網址
remDr <- remoteDriver(remoteServerAddr = "localhost", port = 4444,
browserName = "chrome")
remDr$open()
remDr$navigate("https://www.instagram.com/accounts/login/")

# 控制輸入帳號密碼後點選登入按鈕
webElem <- remDr$findElement(using = 'xpath', value =
"//div/input[@name='username']")
webElem$sendKeysToElement(list(username))
webElem2 <- remDr$findElement(using = 'xpath', value =
"//div/input[@name='password']")
webElem2$sendKeysToElement(list(password))
webElem3 <- remDr$findElement(using = 'xpath', value = "//span/button")
webElem3$clickElement()

# 在搜尋框裡面輸入hashtag後點選搜尋按鈕
webElem4 <- remDr$findElement(using = 'xpath', value =
"//div/input[@placeholder='搜尋']")
webElem4$sendKeysToElement(list(hashtag))
webElem5 <- remDr$findElement(using = 'xpath', value =
"//*[@id='react-root']/section/nav/div[2]/div/div/div[2]/div[2]/div[2]/div/a[1]")
webElem5$clickElement()

#(到這邊的時候就已經進入特定hashtag的所有貼文頁面了
# 控制網頁自動拉到網頁最下方
last_height = 0
repeat {
remDr$executeScript("window.scrollTo(0,document.body.scrollHeight);",
list(remDr$findElement("css", "body")))
Sys.sleep(2)
new_height = remDr$executeScript("return document.body.scrollHeight",
list(remDr$findElement("css", "body")))
if(unlist(last_height) == unlist(new_height)) {
break
} else {
last_height = new_height
}
}

#到這邊的時候會拉到所有貼文最底下
#之所以會這樣做是因為請教朋友的時候對方說
#這類網站叫做waterfall 不會一次讀完
#跟FB有點像往下拉才讀的到

# 想要用rvest package一般爬網頁的作法
remDr$getPageSource()[[1]] %>% read_html(encoding = "UTF-8")

#這邊就會遇到問題
#結果長這樣
#{xml_document}
#<html xmlns="http://www.w3.org/1999/xhtml" lang="zh-tw" class="js logged-in
client-root">
#Error in nchar(desc) : invalid multibyte string, element 2

#上網查了一下Error in nchar(desc)跟invalid multibyte string
#但問題主要是跟編碼有關所以才會加入UTF-8
#可是還是沒有效果
#想要請問一下是否有人知道
#因為我不太熟html跟xpath所以爬得有點辛苦

*方法三
使用jsonlite package

# 載入package
library(rvest)
library(tidyverse)
library(jsonlite)
library(httr)
library(xml2)

#我先以#台啤18天當作目標進去IG頁面
#其網址如下:
#https://www.instagram.com/explore/tags/台啤18天/?hl=zh-tw
#接下來我按照爬蟲教學常見的作法
#先按下檢查後點preserve log 還有clear(左上角紅點右邊的按鈕)
#圖請參考:
https://i.imgur.com/Pt6O5Gl.png

#接下來重新整理頁面後
#觀察XHR部分後發現?__a=1這個東西是要抓取的目標

# 用函數開始抓

url =
"https://www.instagram.com/explore/tags/%E5%8F%B0%E5%95%A418%E5%A4%A9/?__a=1"
res <- fromJSON(content(GET(url), "text"))

#這部分res出來之後有自己要的資料
#譬如說抓下來某一則貼文的內容在下方的程式碼裡面可以找到

res$graphql$hashtag$edge_hashtag_to_media$edges$node$edge_media_to_caption$edges[[20]]

#但這段程式碼裡面沒有包含所有的貼文僅有一部分而已
#所以往下拉之後繼續觀察XHR部分發現有一塊東西?query_hash是目標
#圖請參考

https://i.imgur.com/jUQLMtt.png

#試圖抓取其url之後利用函數但遇到問題了
url10 <-
"https://www.instagram.com/graphql/query/?query_hash=ded47faa9a1aaded10161a2ff32abb6b&variables=%7B%22tag_name%22%3A%22%E5%8F%B0%E5%95%A418%E5%A4%A9%22%2C%22first%22%3A1%2C%22after%22%3A%22AQBs_yhQbCXYxR7WgT2L598zGjRAT1iunnUIPbNxMQx8BbxZsm-S3YMyJK4bCyBRntcrLemDJqF_b_5Y9YlnQvUS7Iz34M6dWu8ONoX9_jJVaw%22%7D"
res10 <- fromJSON(content(GET(url10), "text"))
#遇到的error顯示
#Error: parse error: premature EOF
#
# (right here) ------^
#這塊也有找答案但找不到處理方式

再補充一下
我還有參考其他作法
分別如下:

https://www.diggernaut.com/blog/how-to-scrape-pages-infinite-scroll-extracting-data-from-instagram/
看這則文章知道說原來IG更換網址的做法大概是怎麼樣子
但我不知道如何利用R來複製這件事情

https://toyo0103.blogspot.tw/2018/01/selenium-webdriver-instagram.html
看這則文章知道說如果用RSelenium的話可以一則一則點開後關掉
也有試著實作但遇到的問題是不知道該抓取哪個xpath或是css selector的節點

現在覺得困擾的是大概知道觀念但還是不知道如何實作...這樣真的很心癢難耐
目前的問題大概是這樣
謝謝大家!

[環境敘述]:
R version 3.4.3 (2017-11-30)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

Matrix products: default

locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 LC_CTYPE=Chinese
(Traditional)_Taiwan.950
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.950 LC_NUMERIC=C

[5] LC_TIME=Chinese (Traditional)_Taiwan.950

attached base packages:
[1] stats graphics grDevices utils datasets methods base

other attached packages:
[1] httr_1.3.1 jsonlite_1.5 forcats_0.2.0 stringr_1.2.0
dplyr_0.7.4 purrr_0.2.4
[7] readr_1.1.1 tidyr_0.8.0 tibble_1.4.2 ggplot2_2.2.1
tidyverse_1.2.1 rvest_0.3.2
[13] xml2_1.2.0 RSelenium_1.7.1

loaded via a namespace (and not attached):
[1] reshape2_1.4.2 haven_1.1.1 lattice_0.20-35 colorspace_1.3-2
XML_3.98-1.11 rlang_0.1.6
[7] pillar_1.1.0 foreign_0.8-69 glue_1.2.0 semver_0.2.0
modelr_0.1.1 readxl_1.0.0
[13] bindrcpp_0.2 bindr_0.1 plyr_1.8.4 munsell_0.4.3
binman_0.1.0 gtable_0.2.0
[19] cellranger_1.1.0 caTools_1.17.1 psych_1.7.8 wdman_0.2.2
curl_2.8.1 parallel_3.4.3
[25] broom_0.4.3 Rcpp_0.12.13 openssl_0.9.7 scales_0.5.0
mnormt_1.5-5 hms_0.4.1
[31] stringi_1.1.5 grid_3.4.3 cli_1.0.0 tools_3.4.3
bitops_1.0-6 magrittr_1.5
[37] lazyeval_0.2.0 crayon_1.3.4 pkgconfig_2.0.1 lubridate_1.7.3
rstudioapi_0.7 assertthat_0.2.0
[43] R6_2.2.2 nlme_3.1-131 compiler_3.4.3

[關鍵字]:
爬蟲 instagram scrapy rvest Rselenium

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.25.100
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1524383509.A.81F.html

[爆卦]instagram api抓資料是什麼？優點缺點精華區懶人包

為什麼這篇instagram api抓資料鄉民發文收入到精華區：因為在instagram api抓資料這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者wenbuneatble (文本能吃嗎)看板R_Language標題[問題] 用R爬Instag...

你可能也想看看

搜尋相關網站

#1爬蟲實戰：怎樣爬到Instagram 的資料 - Medium

#2《網頁設計》用Instagram API做圖片/貼文牆20210309更新

#3Instagram 圖形API - Instagram 平台

#4＃新手IG爬蟲問題 - 軟體工程師板 | Dcard

#5如何抓取Instagram有用数据 - 代理• Proxy

#6抓取Instagram(ig) 特定使用者與hashtag 的照片 - 紅色死神

#7利用Instagram 基本顯示API 取得圖片

#8[PHP] 不用Instagram API 取得照片列表的方法（爬蟲） | 一介資男

#9[30apis] Day 28 : Instagram Platform API - iT 邦幫忙

#10Instagram Crawler With API (Ruby 爬蟲) - Leon's Blogging

#11Python API 開放資料串接，抓取台北市政府公開 ... - YC科技生活

#12使用JSON 資料- 學習該如何開發Web | MDN

#13如何使用Python對Instagram進行數據分析？ - 每日頭條

#14自動化Instagram只需要10行的程式【科技爸爸】 - YouTube

#15中華民國第60 屆中小學科學展覽會作品說明書佳作 - 國際科展

#16張博森

#17手把手教你爬取Instagram博主照片和视频 - 腾讯云

#18【資料科學練功坊(一)】- Numpy, Pandas

#19facebook api爬蟲的蘋果、安卓和微軟相關APP

#20python instagram 爬虫 - 知乎专栏

#21js 用axios接instagram api - T學習日誌

#22【爬蟲】透過Selenium WebDriver 爬網頁，以Instagram為例

#23janechen078 - 波波蓁

#24抓住趨勢用Instagram聊天機械人接觸年輕消費者 - Sanuker

#25爬蟲：Instagram資訊爬取- IT閱讀

#26Instagram Hashtag 活動- 互動模組 - 發燒互動

#27國立臺灣師範大學圖書資訊學研究所碩士學位論文指導教授

#28從好奇心學習JSON解析與認識Web developer的Network

#29關於網路爬蟲- Python 教學 - STEAM 教育學習網

#30如何利用Indexing API 自動通知Google 檢索(Index)網頁？

#31[python 爬蟲寶典] 爬蟲入門、爬蟲進階資料採集 - HJs 找樂趣

#32爬取Instagram数据的那些事（已解决） - 掘金

#33水火計畫- Towards a typology of hashtag publics - Google Sites

#34探討網路爬蟲技術於課稅資料蒐集之研究研究單

#35強制Instagram個人資料頁面的原始碼使用JavaScript遠端載入

#36開發者工具

#37抓取ig 相關資訊 - 哇哇3C日誌

#38[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的 ...

#39Clubhouse 130 萬用戶個資，是「公開資訊」還是「外洩資料 ...

#40Python爬蟲：爬取instagram，破解js加密引數 - IT人

#41Facebook API · 專題菁英班- JavaScirpt爬蟲專案

#42如何安排Instagram帖子- Affde營銷

#43ACHO for LINE | 串聯LINE API，精準分眾經營顧客關係

#44串接第三方API - 軟體兄弟

#45解析Facebook 的API 重大變更與Cambridge Analytica 事件

#46如何查看有多少人在Instagram 上看過我的個人資料 - Noticiar ...

#47【硬塞專家開評】Clubhouse 130 萬用戶個資，是「公開資訊 ...

#48附範例與完整程式碼！手把手帶著你用Python 做出爬蟲、抓取 ...

#49Let's Write - Telegram

#50使用python抓取google maps api地標資料 - 藝術貼文懶人包

#51[筆記] 超新手也能用Python 爬蟲打造貨比千家的比價網站

#52[C#] 取得證交所台股價格的3 種實用方法(附範例) - 程式教練Mars

#53【selenium】【實作】用Python來增加你的IG曝光度吧!(上)

#54【大享】 台灣現貨9787111674047社交網站的資料採擷與分析 ...

#55菜鳥救星談程式：什麼是API為什麼每一個工程師都要會

#56Facebook 商業擴充功能｜商業擴充功能 - SHOPLINE 常見問題

#57靠挖掘別人家的資料數據來賺錢，「網路爬蟲」這個行為合法嗎？

#58Crawling Instagram posts content & image - 協作閣

#59instagram註冊

#60【python】透過程式簡單選股與回測(part3):抓取Goodinfo!台灣 ...

#61用Python 寫個程式抓出我在Twitter 上存了哪些tweet

#62[Python爬蟲實例] YouTube-使用youtube_dl 套件 - IT 空間

#63新版Facebook 商業擴充套件推出，3 大升級協助你抓住社群 ...

#64「教學」透過臉書訊息下載完整尺寸的IG 大頭貼| Victor Hung's ...

#65爬取Instagram数据的那些事（已解决） - CSDN博客

#66Facebook 都中招，美國AI 公司偽造App 取得使用者個資

#67[問題] 用R爬Instagram - 看板R_Language - 批踢踢實業坊

#68【下載IG大頭貼】一鍵下載高清Instagram頭像！免安裝APP（iOS

#69智慧城鄉Open API觀光資料共創工作坊活動花絮#NoQ (139563)

#70讓我們來做個互動天氣地圖吧！（直播筆記）

#71Instagram api抓資料= 水龍敬動物森友會

#72Android studio』取得網路資料(JSON格式)並以RecyclerView ...

#73ROR ［Note.6 ］操作資料庫Model | 研究牲

#74社群網站資料探勘｜看數字說故事、不用拔草也能測風向(電子書)

#75Instagram API 教學(取得User ID 及照片資訊)

#76一些做爬蟲的工具與方法

#54【大享】台灣現貨9787111674047社交網站的資料採擷與分析 ...