[爆卦]big data中文是什麼?優點缺點精華區懶人包

為什麼這篇big data中文鄉民發文收入到精華區:因為在big data中文這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者donaldknuth (RoN)看板book標題Re: [心得] 大數據 Big Data時間...


稍稍加註點東西。

書上提到有三點改變,其實在顛覆統計學概念。
1. 樣本=母體:以往的統計學,常常因為成本考量關係,就會以樣本數來推敲母體,
但在Big Data後,因為資料量夠多,多到足以代表你所觀察D的母體。
2. 精準度:在Big Data會發生不同來源的資料,也會有結構性與非結構性等不同類型資料
,這會發生資料容忍度等問題,書中提醒不要過份在意準確,試著接受混亂和不確定性。
3.相關性:以往質性分析都會找變數提假設,說明這已經受到先入為主的偏見影響,而且
作者點出找到因果關係是人類直覺的本能,覺得這點還滿有趣的。

除了這三點改變以外,其它章節都有點料,像是三種價值:資料、技術、思維,從這又延
伸出資料持有人、資料專家,以及擁有Big data思維的人,書中最後面提到風險及管控,
可以再翻翻,肯定會有收獲。

補點挫見,就醬子了!XD

※ 引述《fantasy361 (旋律)》之銘言:
: 嗯......這本書真的叫這個名字,中文跟英文都是。
: 不得不承認我原本因為這個名字不想買它,感覺就很雷XDD
: 不過,簡略翻過之後還是買了,看完之後評價算是中等偏上。
: 整本書的主軸圍繞著所謂的「巨量資料」,顧名思義就是非常大量的資料,
: 內容主要就是以實例來講述我們如何以跟以往不同的思維跟方式來運用巨量資料。
: 其中的例子,我看Google跟Amazon就佔了一半吧XD
: 比較多人知道且運用巨量資料的例子大概是reCAPTCHA了,把驗證碼跟古籍數位化
: 連接起來,整個就是很有創意跟遠見的想法。
: 而所謂處理巨量資料的思維講穿了也就兩點:
:  1. 樣本即為主體 → 克服了過去資料收集不易的統計盲點。
: 2. 相關性 >> 因果關係 → 能解決問題勝過費時費力找到原因。
: ** 並不是說因果關係得被捨棄,而是在巨量資料的前提下,找出相關性遠比找出
: 因果關係來的有效率。
: 最後引用書中一段話作結:
: 「雖然因果關係常常難以判定,甚至可能造成誤導,但人們一向習慣試著找出各種事物
: 的原因。但在巨量資料的世界中,我們不一定要堅守著因果關係;相反的,
: 是要從資料中找出事物的模式,以及彼此的相關性,再從中取得創新而寶貴的見解。
: 從事物彼此的相關性當中,我們可能無法了解某件事『為何如此』,
: 但卻能知道事情『正是如此』。」
: 謝謝各位:D

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.166.120.93
fantasy361:其實也不算顛覆統計學概念,只是資料變得容易收集之後 08/18 22:49
fantasy361:以前的權宜之計就不適合繼續被奉為圭臬 08/18 22:49
※ 編輯: donaldknuth 來自: 118.166.120.93 (08/18 22:59)
wzch:第3點才是重點觀念,但是巨量資料現實面有個很大的問題, 08/19 04:09
wzch:就是資料雖然輛很巨大,但其實是不完整的,而且你還不知道, 08/19 04:10
wzch:這樣造成分析出來的結果依舊錯誤. 08/19 04:10
fantasy361:所以書內有提到巨量資料優點是可以避免人為選擇 08/19 14:14
fantasy361:資料的偏見所導致的謬誤,但伴隨而來的就是如樓上所提 08/19 14:15
fantasy361:資料會變得十分雜亂,也因此不可隨意用因果關係解讀 08/19 14:15
fantasy361:只能做初步的相關性分析,深入研究還是得回歸嚴謹的 08/19 14:17
fantasy361:學術研究,所以我才說其實也不算顛覆統計學概念。 08/19 14:17
fantasy361:不小心又推了好幾樓,這篇原PO抱歉@@ 08/19 14:18
wzch:我想表達的是現實中的巨量資料常常是巨量的假資料~ 08/19 19:54
wzch:結果就是垃圾進垃圾出. 08/19 19:58
skyleo:就像台灣的普查,很多其實都不準,一堆業者根本不肯誠實填寫 08/20 11:58
souldragon:同意wzch 例如google到幾十萬資料 很多根本是重覆的 XD 08/25 14:40
souldragon:都是剪貼 抄來抄去 以訛傳訛 這種big data哪有什麼用? 08/25 14:41
greco0616:使用者行為才是巨量資料所要著重的 08/26 01:54
greco0616:大到對整個世界的統計找到趨勢(ex 常見搜尋的關鍵字) 08/26 01:55
greco0616:小到找出每個人的喜好,而投其所好(精準的廣告) 08/26 01:56
sneak: 就像台灣的普查,很多其 https://muxiv.com 11/06 17:11
sneak: 所以書內有提到巨量資料 https://noxiv.com 12/31 03:21

你可能也想看看

搜尋相關網站