[爆卦]資料集dataset是什麼？優點缺點精華區懶人包

雖然這篇資料集dataset鄉民發文沒有被收入到精華區：在資料集dataset這個話題中，我們另外找到其它相關的精選爆讚文章

在資料集dataset產品中有15篇Facebook貼文，粉絲數超過5萬的網紅軟體開發學習資訊分享，也在其Facebook貼文中提到，最大的開放資料集，可以用來練習機器學習對機器學習有興趣可參考 https://bit.ly/2yYRlZX https://laion.ai/laion-400-open-dataset/...

「資料集dataset」的推薦目錄

關於資料集dataset 在軟體開發學習資訊分享 Facebook 的精選貼文
關於資料集dataset 在台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
關於資料集dataset 在大紀元時報 - 台灣(The Epoch Times - Taiwan) Facebook 的最讚貼文

資料集dataset 在軟體開發學習資訊分享 Facebook 的精選貼文

2021-09-13 20:08:26
有 3 人按讚

最大的開放資料集，可以用來練習機器學習

對機器學習有興趣可參考 https://bit.ly/2yYRlZX

https://laion.ai/laion-400-open-dataset/
資料集dataset 在台灣物聯網實驗室 IOT Labs Facebook 的最佳解答

2021-02-05 10:12:55
有 0 人按讚

Google、軟銀都陣亡過！盤點 AI 專案失敗的 4 大原因

Posted on2021/02/04
若水AI Blog

【我們為什麼挑選這篇文章】為了適應未知多變的世界，許多企業搶做「數位轉型」，從公司營運的各層面如客戶體驗、商業模式、企業文化到作業流程等，透過科技的導入來提升效率與效能；而對製造業企業而言，原料採購、物流管理、庫存調配、生產、行銷等環節則是企業主進行數位轉型會優先考量的面向。

在這之中，AI 的運用扮演很關鍵的角色，如何將 AI 應用到上述各層面並實際執行，是許多企業面臨的挑戰，有哪些要點是執行 AI 專案時需特別留意的？（責任編輯：賴佩萱）

作者：若水 AI 資料資料處理部負責人簡季婕

2020 年，突如其來的新冠肺炎疫情（Covid-19）改變了許多產業的命運，同時加速推促 AI 落地的速度，AI 人工智慧的應用將成為企業的新日常。

若水 AI 資料服務團隊本著為臺灣 AI 應用落地盡份心力的初衷，順著這波改變，推出全新系列內容：與機器學習（ML : Machine Learning）、AIOps 智慧運維（Artificial Intelligence for IT Operations）有關的實用文，分享各界專家在每一天如何持續營運、優化 AI 架構以及資料處理的基本功。

【若水導讀】AI 專案順利通關的三個絕招：

1. AI 資料來源要多元，避免學習偏誤
2. 標註前，請先建立客觀的 AI 資料標註（Data Annotation）原則
3. 讓 AI 人工智慧成為組織的共同語言，會更容易成功
企業都想做 AI，但實際上沒那麼簡單

根據《臺灣人工智慧學校 AI Academy Taiwan》2019 年針對臺灣各大產業 1,095 位業界校友的調查統計，成功導入 AI 人工智慧的臺灣企業僅占 20%。放眼國際，許多全球知名企業的 AI 專案也慘遭滑鐵盧：

Google 在泰國落地測試智慧醫療失敗，拖慢醫療流程；美國杜克大學發佈的 PULSE 演算法誤將歐巴馬的頭像還原為白人，引發種族歧視爭議。

在日本，軟銀（Softbank）社長孫正義原本打算以 AI 機器人取代銷售人員，沒想到 AI 機器人無法應付實際場域的複雜性，計畫負責人只好承認失敗：「我們把機器學習（Machine Learning）想得太簡單了」。

AI 專案難實際執行，問題出在哪？

若水經手過臺灣、日本超過 200 個的 AI 資料處理專案，從橫跨各大產業領域的專案經驗，整理出企業 AI 之所以無法順利落地的四大原因。

1. AI 模型訓練過程中沒有加入實際場域的資料

無論是剛導入 AI 而產生資料處理需求的新手企業，還是已有 AI 專案經驗、為了 retrain 模型再度找上若水的老手企業，都曾經在同一個地方卡關：AI 資料標註品質有做到位元，但 AI 模型卻無法應用落地。

為什麼？

原因在於，客戶並未以「實際場景」的資料來進行 AI 模型訓練。
現在市面上有許多開放資料集（Open Dataset）或是免費的商用網路圖片，企業通常會優先使用這些免費資源進行 AI 資料標註（Data Annotation）讓機器學習，但是放到實際場域測試後，經常發現 AI 模型成效不佳，無法適用於實際場景，最終還是需要回過頭再進行第二次模型訓練（Model Training）。

因此在 AI 專案開始前，建議企業首先需要在內部建立資料資料流（Data Pipeline），而在收集資料時，不只使用開放資料集（Open Dataset），也須確保有使用符合實際應用場景的資料來訓練 AI 模型，全盤考量資料類型、角度等多元性，避免機器學習偏誤。

2. AI 資料標註原則定義不夠客觀

與企業工程師對接 AI 資料處理需求時，當我們詢問這批人臉辨識（Face Recognition）的 AI 資料標註的原則是什麼，常常會接到諸如此類的回答：「頭太小的話，就不要標註數據」。

一般人的邏輯覺得很合理的事情，對於機器學習（Machine Learning）來說卻是一大挑戰。機器學習需要知道的是趨近「絕對客觀」的原則，例如，所謂的頭太大、太小，換算成具體數值會是幾乘幾大小的 pixel？如果圖片背景融色或模糊，也需要標註起來嗎？

一旦 AI 資料標註原則不夠客觀，AI 模型很容易隨著人的「主觀認定」來學習，當專案換了一位工程師，機器學習出來的效果可能也會跟著變。在我們的經驗，原則的訂定最好透過「對話」，藉由反覆詰問，才能加快釐清目標。有了歸納、定義出客觀的 AI 資料標註原則。就會加快模型學習（Model Learning）成效。

為了清楚定義圖片融色或模糊的問題，我們採用國際照明委員會（International Commission on Illumination）訂定的 Delta E 標準，和影像（圖像）品質評估標準 BRISQUE，和客戶確認彼此認知是否一致。

根據國際標準，人的肉眼能分辨得出來的色差，至少會在 Delta E 值 2 以上。所以，當一張影像測出來 Delta E 值小於 2，就表示這張圖的融色程度太高，無法標註。

假如客戶希望「太模糊的圖片不要標註」，團隊也會根據 BRISQUE（影像品質評估標準）的標準，輸出不同模糊指數的圖片，請客戶確認所謂的模糊，具體來說是 70% 還是 80%。

3. AI 模型訓練（Model Training）沒有循序漸進

以肢體行為辨識（Posture Estimation）為例，Coco Dataset 從一開始只辨識人體 7 大主要關鍵點（Key Point），後來逐步發展成 25 點，甚至快 40 點，有些客戶會希望若水 AI 團隊可以一次就標註 40 個關鍵點，直接拿去機器學習（Machine Learning）。

說起來，機器學習和教小孩很像，一下子給太多的特徵點（Feature Points）反而會「揠苗助長」，導致 AI 模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶，一開始想用難度較高的 Segmentation 方式讓模型學習人的行為，但是人的行為百百種、語意切割（Segmentation）的變異度也高，就比較難學得好。

當這些客戶再回頭來找若水，通常會比較循序漸進，從小地方開始逐步改進 AI 模型。

4. 缺乏管理層的理解與支持

AI 熱潮讓許多企業趨之若鶩，然而 AI 要能夠順利落地，除了上述三項實務建議，企業管理層對於 AI 的認知和支持更是一大關鍵。
許多臺灣企業的 AI 數位轉型主導者，可能是傳統公司裡面有豐富資歷的 CTO 技術長或管理階層，對於 AI 人工智慧這個全新領域的概念，比較缺乏深度的理解，也沒有類似 AI 模型訓練和測試的相關經驗，從上述 4 個原因去追尋難以落地的根源，或許能有所助益。

資料來源：https://buzzorange.com/techorange/2021/02/04/ai-project-difficulties/?fbclid=IwAR04ZC1-1MquyCObEI5HIfTKtV-OkcfxL_R8vRin4YgQMl8cnhS_6aM59vU
資料集dataset 在大紀元時報 - 台灣(The Epoch Times - Taiwan) Facebook 的最讚貼文

2020-11-25 19:48:10
有 118 人按讚

當數據庫裡的總投票數一直嚴重低於真實的投票數時，意味著什麼呢❓

這意味著數據庫裡更新投票日期、拒絕重複投票的功能選擇性失效了；或者新聞報導的已投票數據是虛構的，是虛構了上百萬張選票😱。

[爆卦]資料集dataset是什麼？優點缺點精華區懶人包

雖然這篇資料集dataset鄉民發文沒有被收入到精華區：在資料集dataset這個話題中，我們另外找到其它相關的精選爆讚文章

「資料集dataset」的推薦目錄

資料集dataset 在 軟體開發學習資訊分享 Facebook 的精選貼文

資料集dataset 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答

資料集dataset 在 大紀元時報 - 台灣(The Epoch Times - Taiwan) Facebook 的最讚貼文

你可能也想看看

搜尋相關網站

#1什麼是開放資料集？ 策劃的公用資料集- Azure Open Datasets

#2開放資料集 - iT 邦幫忙

#3[資料分析&機器學習] 第2.1講： 如何獲取資料？ Sklearn內建 ...

#4資料集| 搜尋中心

#5國網中心資料集平台

#6Data set - 資料集 - 國家教育研究院雙語詞彙

#7機器學習和資料科學中常用的公開資料集（含計算機視覺最全 ...

#8關於AI 的A 到Z：D 代表資料集(Dataset)

#9sklearn.datasets 資料集

#10機器學習資料集- Iris dataset

#11尋找良好的資料集

#12資料集下載 - AI CUP

#13機器學習資料集Datasets

#14政府資料開放資料集管理要項 - 國家發展委員會

#15數據集，又稱為資料集 - 華人百科

#16如何引用資料集(How to Cite a Dataset) - 學術傳播小組

#17資料分析人的福利：20個免費開放資料源| 帆軟軟件

#18資料分類統計 - 政府資料開放平臺

#19鏈結開放資料平台| 中研院數位文化中心

#20資料集 - 台灣生物多樣性網絡

#21資料集詮釋資料標準規範

#22安德森鳶尾花卉資料集- 維基百科，自由的百科全書

#23TensorFlow Datasets

#24Find Open Datasets and Machine Learning Projects | Kaggle

#25進一步瞭解資料集搜尋。 - Dataset Search

#26常用数据集Datasets - Keras 中文文档

#27dataset中文(繁體)翻譯：劍橋詞典

#28建立資料集- AWS IoT Analytics

#29認識「資料集」 - Analytics (分析)說明

#3001-RBasic-07-Loading-Dataset

#31臺灣陸域環境因子多時序資料集 - depositar

#32機器學習八大資料集（Dataset） 和十大TensorFlow優質資源彙總

#33DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset

#34什麼是開放資料？ - The Open Data Handbook

#35資料集- CKAN_20

#36create dataset - IBM

#37下載kaggle資料集的小妙招 - IT人

#38【AI_Column】如何以YOLOv3訓練自己的資料集 以小蕃茄為例

#39数据集_百度百科

#40資料集詮釋資料標準規範

#41機器學習-數據集(dataset)

#42【教學】從COCO Dataset中提取所需的類別資料

#43資料集與使用範例 - RWEPA

#44課堂資料集資料庫 - 教育部數位人文創新人才培育計畫

#45資料集- CKAN

#46各領域機器學習資料集彙總（附下載地址） | 程式前沿

#47Google 推出新的搜尋服務Dataset Search | TechNews 科技新報

#48TensorFlow Datasets 資料集載入

#49R內建的資料集datasets - 阿就操場啊~

#50第三章 R的檔案處理和內建資料集 - RPubs

#51資料集 - 臺中市政府資料開放平台

#52使用Zarr 儲存資料集並用PyTorch Dataset 讀取 - 翼之都

#53自學機器學習：上Kaggle接軌世界，成為資料科學家 - 博客來

#54tensorflow學習（11）：資料集Dataset - IT閱讀

#55臺南市各區農會產品網路購物- 資料集

#56資料集英文- 英語翻譯 - 查查在線詞典

#57Scikit-Learn - 機器學習入門

#58[觀念] 請問一下，DataSet 到底有什麼用？

#59資料集類別 - GBIF

#60資料集與使用範例 - R部落客

#61用Pandas 獲取數據資料_Sklearn內建IRIS鳶尾花 - CSDN

#622015/02 - 德瑞克：SQL Server 學習筆記

#63dataset 標籤列表Ting I 的程式碼集中營 - 點部落

#64資料集結構

#6525個免費數據集網站大放送——For 熱愛數據科學的你 - 每日頭條

#66google 全新搜尋方式Dataset Search 搜尋資料集 - Aidec

#67Datasets - 澎湖縣政府資料開放平台

#68開放資料集 - 公路總局

#69DataSet資料集的遍歷 - 程序員學院

#70臺北市資料大平臺

#71LINQ Dataset（資料集） - tw511教學網

#72使用強型別資料集(Typed DataSet)需注意欄位長度的陷阱分享

資料集dataset 在軟體開發學習資訊分享 Facebook 的精選貼文

資料集dataset 在台灣物聯網實驗室 IOT Labs Facebook 的最佳解答

資料集dataset 在大紀元時報 - 台灣(The Epoch Times - Taiwan) Facebook 的最讚貼文

#1什麼是開放資料集？策劃的公用資料集- Azure Open Datasets

#3[資料分析&機器學習] 第2.1講：如何獲取資料？ Sklearn內建 ...

#32機器學習八大資料集（Dataset）和十大TensorFlow優質資源彙總

#38【AI_Column】如何以YOLOv3訓練自己的資料集以小蕃茄為例

#83Google 新服務Dataset Search 「資料集搜尋」幫你海撈專業 ...