[爆卦]r資料分組cut是什麼？優點缺點精華區懶人包

為什麼這篇r資料分組cut鄉民發文收入到精華區：因為在r資料分組cut這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者celestialgod (天)看板R_Language標題Re: [問題] 請問該怎麼寫讓函式...

作者celestialgod (天)

看板R_Language

標題Re: [問題] 請問該怎麼寫讓函式更有彈性?

時間Thu Mar 9 19:26:17 2017

※ 引述《locka (locka)》之銘言：
: [問題敘述]:
: 版上前輩大家晚安~
: 假設我的原始資料欄位有year,month,weekday,y等欄位
: 我想要對他重複做一樣的事情
: (根據不同的欄位grouping,計算每組的數量,組內y的平均然後畫圖)
: 因為差別只在於grouping的欄位不同,所以在想說可不可以用函數包起來
: ex:
: df_group_fn(df,"year","month") >>> 回傳以year,month欄位grouping後計算的結果
: df_group_fn(df,"month","weekday") >>> 回傳以month,weekday分組後計算的結果
: 也就是只要輸入該data frame跟要grouping的欄位
: 就可以直接回傳整理好的結果
: 原本想要用dplyr做,大概像下面這樣:
: df_group_fn <- function(df,col_1,col_2){
: df %>% group_by(col_1,col_2) %>% summarise(count=n(),avg=mean(y)) %>%
: ggplot(aes(mean,n)+geom_point()
: }
: 不過會卡在指定欄位參數因為是字串的關係, 在group_by那邊會有問題
: 所以試著改用data.table的寫法:
: df_group_fn <- function(df,col_1,col_2){
: df <- as.data.table(df)
: df[,`:=`(count=.N, avg=mean(y)),by=c(col_1,col_2)]
: ...
: }
: 可是data.table不會像dplyr一樣
: 產生只留下grouping跟summarise欄位的dataframe
: 他是在原始的data裡面新增欄位,這樣我就不知道怎麼畫圖了...
: 總結我的問題：
: 1. 希望有高手可以指點用dplyr跟data.table把function寫得更有彈性的方法
: 2. 如果我今天不想把grouping的欄位數量寫死,
: (例如我輸入"year"它就只根據year欄位分組,
: 輸入"year","month","weekday"就根據那三個欄位分組,該怎麼做呢?
: 3. 最後想問大家實務上會這麼做嗎? 很希望可以聽到版上大家分享!!
: 先謝謝各位版上先進了 m(_ _)m
: [關鍵字]:
:
: function, data.table, grouping
:

好讀版：http://pastebin.com/Yxres7jy

我會建議用wrapr去做這件事情

下面先把一般寫法列出給原PO參考

library(dplyr)
library(pipeR)
library(ggplot2)
library(data.table)

data("diamonds", package = "ggplot2")

# 一般寫法 (dplyr)
df_group_fn <- function(df, meanCol, col_1, col_2){
df %>>% group_by_(.dots = c(col_1, col_2)) %>>%
summarise_(.dots = c(n = "n()",
mean = paste0("mean(", meanCol, ")"))) %>>%
{ggplot(., aes(mean,n)) + geom_point()}
}
df_group_fn(diamonds, "price", "cut", "color")

# 一般寫法 (data.table)
dt_group_fn <- function(dt, meanCol, col_1, col_2){
dt[ , .(n = .N, mean = eval(parse(text = paste0("mean(", meanCol, ")")))),
by = c(col_1, col_2)] %>>%
{ggplot(., aes(mean,n)) + geom_point()}
}
dt_group_fn(data.table(diamonds), "price", "cut", "color")

# wrapr + dplyr
library(wrapr)
df_group_fn2 <- function(df, meanCol, col_1, col_2){
let(list(y = meanCol, c1 = col_1, c2 = col_2), {
df %>>% group_by(c1, c2) %>>% summarise(n = n(), mean = mean(y))
}) %>>% {ggplot(., aes(mean,n)) + geom_point()}
}
df_group_fn2(diamonds, "price", "cut", "color")

# wrapr + data.table
dt_group_fn2 <- function(dt, meanCol, col_1, col_2){
let(list(y = meanCol, c1 = col_1, c2 = col_2), {
dt[ , .(n = .N, mean = mean(y)), by = .(c1, c2)]
}) %>>% {ggplot(., aes(mean,n)) + geom_point()}
}
dt_group_fn2(data.table(diamonds), "price", "cut", "color")

# 進階，不把欄位給死的方法：
# dplyr
df_group_fn3 <- function(df, meanCol, groupByCols){
let(list(y = meanCol), {
df %>>% group_by_(.dots = groupByCols) %>>%
summarise(n = n(), mean = mean(y))
}) %>>%
{ggplot(., aes(mean,n)) + geom_point()}
}
df_group_fn3(diamonds, "price", c("cut", "color"))

# data.table
dt_group_fn3 <- function(dt, meanCol, groupByCols){
let(list(y = meanCol), {
dt[ , .(n = .N, mean = mean(y)), by = groupByCols]
}) %>>% {ggplot(., aes(mean,n)) + geom_point()}
}
dt_group_fn3(data.table(diamonds), "price", c("cut", "color"))

實務上，我自己是做比較接近data engineer的工作

基本上user就會有類似需要，這時候彈性的函數就顯得很重要

所以怎麼去利用eval, parse以及...就變得很重要 (沒看錯就是三個.)

除非全部都是處理data.frame，就可用dplyr透過lazyeval去做

不用wrapr，寫起來最漂亮的應該是下面這樣： (更正，應該是user用起來最爽XD)

# data.table + ... + substitute
dt_group_fn3 <- function(dt, meanCol, ...){
groupByCols <- as.character(as.list(substitute(list(...)))[-1L])
y <- substitute(meanCol)
dt[ , .(n = .N, mean = mean(y)), by = groupByCols] %>>%
{ggplot(., aes(mean,n)) + geom_point()}
}
dt_group_fn3(data.table(diamonds), price, cut, color)

--
R資料整理套件系列文：
magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9
data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue
dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b
tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz
pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.235.41.96
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1489058786.A.745.html

推 locka: 先感謝C大詳細的說明!第一次看到wrapr,我再研究看看怎麼用 03/09 20:19

→ locka: 說到'...'我常常看到套件裡面使用這個參數,藉機請問它的處 03/09 20:20

→ celestialgod: andrew板主有寫過一篇請參考#1LV4sfXT 03/09 20:22

→ locka: 謝謝我有看到了,所以用list處理。那麼substitute跟parse呢? 03/09 20:29

→ locka: 不清楚甚麼時候用eval(parse(text=xx))甚麼時候substitute 03/09 20:31

這個我也不會教XD，去看advanced R吧，看你能學到多少了Orz

推 locka: 不過最後一個做法裡面,為什麼price等參數不需要引號啊? 03/09 21:30

→ locka: 哈哈好~我會去找來看謝謝版主大大~ 03/09 21:32

透過substitute轉成symbol / name，所以不需要quote~~

推 ginseng21: 這篇收穫良多 03/09 21:37

※ 編輯: celestialgod (36.235.41.96), 03/09/2017 21:49:54

推 locka: 真的!! 03/09 22:28

推 cywhale: 推~~ 03/09 22:43

[爆卦]r資料分組cut是什麼？優點缺點精華區懶人包

為什麼這篇r資料分組cut鄉民發文收入到精華區：因為在r資料分組cut這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者celestialgod (天)看板R_Language標題Re: [問題] 請問該怎麼寫讓函式...

你可能也想看看

搜尋相關網站

#1R tips: 把數字依大小做分類: cut()和他的好朋友們

#2R語言中cut()函數的用法說明 - WalkonNet

#3數值型變數的分類| R - DataCamp

#4R语言中cut()函数的用法说明 - 脚本之家

#5輕鬆學習R 語言：進階資料框處理 - Medium

#6R 資料分析應用：圖表繪製（一） - 臺北醫學大學

#7R語言中的numeric數據歸類，cut函數的應用 - 台部落

#8R:cut函数(附例子)_打不死的小强 - CSDN博客

#9R语言cut函数分组数据的使用方法听语音 - 百度经验

#10R語言筆記完整版- IT閱讀

#11進階資料框操作技巧 - 數據交點

#12資料合併與分割· R Basic - Joe (@joe11051105)

#13怎么在R语言中使用cut()函数- 开发技术 - 亿速云

#14R语言中cut()函数的用法说明 - 张生荣

#15R语言-cut()函数的用法指南 - 编程宝库

#16R 練習題(v2021.09) - 吳漢銘

#17R 常用技巧

#18R語言-進行資料的重新編碼(recode)操作 - IT145.com

#19R 语言cut函数 - 简书

#20R2021_1_Basics.pdf - 臺北榮民總醫院

#2126 数据整理| R语言教程 - 北京大学数学科学学院

#22R语言使用cut函数进行分组 - 经管之家

#23R 群組操作 - 龍崗山上的倉鼠

#24R語言分組計算系列 - GetIt01

#25快速掌握R語言中類SQL資料庫操作技巧 - - CodingNote.cc

#26語言入門

#27hw05 - RPubs

#2825-02 R資料分析應用：圖表繪製（一） - 9lib TW

#29R速成指南-時間序列重採樣 - 每日頭條

#30快速掌握R語言中類SQL資料庫操作技巧 - 人人焦點

#31R commands(11.09.13) 指令用法簡介

#32R语言中的五种常用统计分析方法 - html中文网

#33輕鬆學習R語言學習筆記

#34R中五种常用的统计分析方法 - 腾讯云

#35R语言分组计算系列 - 知乎专栏

#36Chapter 11 因子資料處理| R 資料科學與統計 - Bookdown

#37直接執行R指令、撰寫R程式及自訂函數、使用輸出入資料檔

#38R语言中使用CUT函数将数据进行分段重编码 - 188asia备用网址

#39R语言中Cut()函数的用法说明 - 10K编程网

#40Python 中pandas 中cut方法 - w3c學習教程

#41R语言中cut()函数的用法说明 - 中企动力

#42【R相關教學】製作分組次數分配表（手動版） | psystatblog

#43R语言cut()函数R语言中cut()函数的用法说明_IT技术

#44R plot 1

#45wush978/DataScienceAndR - Gitter

#46R語言程式設計藝術（2）R中的資料結構 - 拾貝文庫網

#47中部：執具| R語言資料分析（北京郵電大學）自整理筆記

#48R語言基本操作與基礎知識 - 程序員學院

#49R语言中使用CUT函数将数据进行分段重编码_dege857的博客

#501_ggplot2_r講義20151016.docx

#51視覺效果- Azure Databricks

#52R语言时间处理_Tanya_girl的博客-程序员资料

#53用python進行資料分析筆記1–基礎知識篇 - 程式前沿

#54R 以ggplot2 繪製熱圖Heat Maps 教學與範例 - Office 指南

#55R语言如何筛选重复行 - 术之多

#56資料科學家的pandas 實戰手冊：掌握40 個實用 ... - LeeMeng

#57R语言中cut()函数的用法说明 - 沈一博客

#58R-畫地圖- 阮孝齊的網站shiaochi's web

#59R语言中cut()函数的用法说明 - 投资理财

#60采用最大选择统计寻找生存资料中变量的切点

#61R语言cut()函数R语言中cut()函数的用法说明_IT技术 - 视游时光

#62手把手教你R 語言分析實務 - SlideShare

#63Learn R|視覺化之ggplot2包（上） - 啟航知道

#64R语言cut()函数R语言中cut()函数的用法说明_IT技术 - 酷软网

#65R语言中cut()函数的用法说明 - 帝国cms模板

#66R语言cut()函数R语言中cut()函数的用法说明_IT技术 - 纯净下载

#67R語言的常用函式。 - 趣讀

#68R语言如何筛选重复行 - BBSMAX

#69全棧– 15 實戰Diamonds 資料集探索 - IT人

#70R语言进行数据的重新编码(recode)_大猫__0的博客 - 程序员 ...

#71R語言與格式、日期格式、格式轉化 - 开发者知识库

#72跟著小郭郭學R:15-ggplot2(5) Bar chart(2)

#73统计学与R读书笔记(第六版)

#74python/pandas資料挖掘（十四）-groupby,聚合，分組級運算

#75R语言与格式日期格式格式转化- 搜索编程资料，就到琅嬛玉洞

#7625-02 R資料分析應用：圖表繪製（一）