[爆卦]資料集dataset是什麼?優點缺點精華區懶人包

雖然這篇資料集dataset鄉民發文沒有被收入到精華區:在資料集dataset這個話題中,我們另外找到其它相關的精選爆讚文章

在 資料集dataset產品中有15篇Facebook貼文,粉絲數超過5萬的網紅軟體開發學習資訊分享,也在其Facebook貼文中提到, 最大的開放資料集,可以用來練習機器學習 對機器學習有興趣可參考 https://bit.ly/2yYRlZX https://laion.ai/laion-400-open-dataset/...

  • 資料集dataset 在 軟體開發學習資訊分享 Facebook 的精選貼文

    2021-09-13 20:08:26
    有 3 人按讚

    最大的開放資料集,可以用來練習機器學習

    對機器學習有興趣可參考 https://bit.ly/2yYRlZX

    https://laion.ai/laion-400-open-dataset/

  • 資料集dataset 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答

    2021-02-05 10:12:55
    有 0 人按讚

    Google、軟銀都陣亡過!盤點 AI 專案失敗的 4 大原因

    Posted on2021/02/04
    若水AI Blog

    【我們為什麼挑選這篇文章】為了適應未知多變的世界,許多企業搶做「數位轉型」,從公司營運的各層面如客戶體驗、商業模式、企業文化到作業流程等,透過科技的導入來提升效率與效能;而對製造業企業而言,原料採購、物流管理、庫存調配、生產、行銷等環節則是企業主進行數位轉型會優先考量的面向。

    在這之中,AI 的運用扮演很關鍵的角色,如何將 AI 應用到上述各層面並實際執行,是許多企業面臨的挑戰,有哪些要點是執行 AI 專案時需特別留意的?(責任編輯:賴佩萱)

    作者:若水 AI 資料資料處理部負責人 簡季婕

    2020 年,突如其來的新冠肺炎疫情(Covid-19)改變了許多產業的命運,同時加速推促 AI 落地的速度,AI 人工智慧的應用將成為企業的新日常。

    若水 AI 資料服務團隊本著為臺灣 AI 應用落地盡份心力的初衷,順著這波改變,推出全新系列內容:與機器學習(ML : Machine Learning)、AIOps 智慧運維(Artificial Intelligence for IT Operations)有關的實用文,分享各界專家在每一天如何持續營運、優化 AI 架構以及資料處理的基本功。

    【若水導讀】AI 專案順利通關的三個絕招:

    1. AI 資料來源要多元,避免學習偏誤
    2. 標註前,請先建立客觀的 AI 資料標註(Data Annotation)原則
    3. 讓 AI 人工智慧成為組織的共同語言,會更容易成功
    企業都想做 AI,但實際上沒那麼簡單

    根據《臺灣人工智慧學校 AI Academy Taiwan》2019 年針對臺灣各大產業 1,095 位業界校友的調查統計,成功導入 AI 人工智慧的臺灣企業僅占 20%。放眼國際,許多全球知名企業的 AI 專案也慘遭滑鐵盧:

    Google 在泰國落地測試智慧醫療失敗,拖慢醫療流程;美國杜克大學發佈的 PULSE 演算法誤將歐巴馬的頭像還原為白人,引發種族歧視爭議。

    在日本,軟銀(Softbank)社長孫正義原本打算以 AI 機器人取代銷售人員,沒想到 AI 機器人無法應付實際場域的複雜性,計畫負責人只好承認失敗:「我們把機器學習(Machine Learning)想得太簡單了」。

    AI 專案難實際執行,問題出在哪?

    若水經手過臺灣、日本超過 200 個的 AI 資料處理專案,從橫跨各大產業領域的專案經驗,整理出企業 AI 之所以無法順利落地的四大原因。

    1. AI 模型訓練過程中沒有加入實際場域的資料

    無論是剛導入 AI 而產生資料處理需求的新手企業,還是已有 AI 專案經驗、為了 retrain 模型再度找上若水的老手企業,都曾經在同一個地方卡關:AI 資料標註品質有做到位元,但 AI 模型卻無法應用落地 。

    為什麼?

    原因在於,客戶並未以「實際場景」的資料來進行 AI 模型訓練。
    現在市面上有許多開放資料集(Open Dataset)或是免費的商用網路圖片,企業通常會優先使用這些免費資源進行 AI 資料標註(Data Annotation)讓機器學習,但是放到實際場域測試後,經常發現 AI 模型成效不佳,無法適用於實際場景,最終還是需要回過頭再進行第二次模型訓練(Model Training)。

    因此 在 AI 專案開始前,建議企業首先需要在內部建立資料資料流(Data Pipeline),而在收集資料時,不只使用開放資料集(Open Dataset),也須確保有使用符合實際應用場景的資料來訓練 AI 模型,全盤考量資料類型、角度等多元性,避免機器學習偏誤 。

    2. AI 資料標註原則定義不夠客觀

    與企業工程師對接 AI 資料處理需求時,當我們詢問這批人臉辨識(Face Recognition)的 AI 資料標註的原則是什麼,常常會接到諸如此類的回答:「頭太小的話,就不要標註數據」。

    一般人的邏輯覺得很合理的事情,對於機器學習(Machine Learning)來說卻是一大挑戰。 機器學習需要知道的是趨近「絕對客觀」的原則 ,例如,所謂的頭太大、太小,換算成具體數值會是幾乘幾大小的 pixel?如果圖片背景融色或模糊,也需要標註起來嗎?

    一旦 AI 資料標註原則不夠客觀,AI 模型很容易隨著人的「主觀認定」來學習,當專案換了一位工程師,機器學習出來的效果可能也會跟著變 。在我們的經驗,原則的訂定最好透過「對話」,藉由反覆詰問,才能加快釐清目標。有了歸納、定義出客觀的 AI 資料標註原則。就會加快模型學習(Model Learning)成效。

    為了清楚定義圖片融色或模糊的問題,我們採用國際照明委員會(International Commission on Illumination)訂定的 Delta E 標準,和影像(圖像)品質評估標準 BRISQUE,和客戶確認彼此認知是否一致。

    根據國際標準,人的肉眼能分辨得出來的色差,至少會在 Delta E 值 2 以上。所以,當一張影像測出來 Delta E 值小於 2,就表示這張圖的融色程度太高,無法標註。

    假如客戶希望「太模糊的圖片不要標註」,團隊也會根據 BRISQUE(影像品質評估標準)的標準,輸出不同模糊指數的圖片,請客戶確認所謂的模糊,具體來說是 70% 還是 80%。

    3. AI 模型訓練(Model Training)沒有循序漸進

    以肢體行為辨識(Posture Estimation)為例,Coco Dataset 從一開始只辨識人體 7 大主要關鍵點(Key Point),後來逐步發展成 25 點,甚至快 40 點,有些客戶會希望若水 AI 團隊可以一次就標註 40 個關鍵點,直接拿去機器學習(Machine Learning)。

    說起來,機器學習和教小孩很像,一下子給太多的特徵點(Feature Points)反而會「揠苗助長」,導致 AI 模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶,一開始想用難度較高的 Segmentation 方式讓模型學習人的行為,但是人的行為百百種、語意切割(Segmentation)的變異度也高,就比較難學得好。

    當這些客戶再回頭來找若水,通常會比較循序漸進,從小地方開始逐步改進 AI 模型。

    4. 缺乏管理層的理解與支持

    AI 熱潮讓許多企業趨之若鶩,然而 AI 要能夠順利落地,除了上述三項實務建議,企業管理層對於 AI 的認知和支持更是一大關鍵。
    許多臺灣企業的 AI 數位轉型主導者,可能是傳統公司裡面有豐富資歷的 CTO 技術長或管理階層,對於 AI 人工智慧這個全新領域的概念,比較缺乏深度的理解,也沒有類似 AI 模型訓練和測試的相關經驗,從上述 4 個原因去追尋難以落地的根源,或許能有所助益。

    資料來源:https://buzzorange.com/techorange/2021/02/04/ai-project-difficulties/?fbclid=IwAR04ZC1-1MquyCObEI5HIfTKtV-OkcfxL_R8vRin4YgQMl8cnhS_6aM59vU

  • 資料集dataset 在 大紀元時報 - 台灣(The Epoch Times - Taiwan) Facebook 的最讚貼文

    2020-11-25 19:48:10
    有 118 人按讚

    當數據庫裡的總投票數一直嚴重低於真實的投票數時,意味著什麼呢❓

    這意味著數據庫裡更新投票日期、拒絕重複投票的功能選擇性失效了;或者新聞報導的已投票數據是虛構的,是虛構了上百萬張選票😱。

你可能也想看看

搜尋相關網站