雖然這篇Mlbox鄉民發文沒有被收入到精華區:在Mlbox這個話題中,我們另外找到其它相關的精選爆讚文章
在 mlbox產品中有1篇Facebook貼文,粉絲數超過6,329的網紅工研院巨量資訊科技中心 - ITRI,也在其Facebook貼文中提到, AI的未來?你不能不認識的人工智慧與資料科學自動化技術—AutoML(2/10) 一、資料前處理(Data Pre-processing) 資料前處理是機器學習過程中的重要步驟。資料收集方法通常比較寬鬆、缺乏控制,導致收集到的值超出範圍或不合邏輯(例如,收入出現-100),不可能的資料組合(例如,「...
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...
mlbox 在 工研院巨量資訊科技中心 - ITRI Facebook 的最讚貼文
AI的未來?你不能不認識的人工智慧與資料科學自動化技術—AutoML(2/10)
一、資料前處理(Data Pre-processing)
資料前處理是機器學習過程中的重要步驟。資料收集方法通常比較寬鬆、缺乏控制,導致收集到的值超出範圍或不合邏輯(例如,收入出現-100),不可能的資料組合(例如,「性別:男性」加上「懷孕:是」的組合)以及缺失值(missing value)等。未經仔細篩選此類問題可能會產生誤導性結果。因此,在進行分析之前,資料的表示形式和品質是首要確認的目標。一般來說,資料前處理是機器學習項目中最重要的階段。
如果存在大量不相關和多餘的訊息,或者存在噪音(noisy)且不可靠的資料,則在訓練階段發現知識將變得更加困難。資料準備和過濾的步驟可能會花費大量的處理時間。資料前處理包括清理(cleaning)、實例選擇(instance selection)、標準化(normalization)、轉換(transformation)、特徵提取和選擇(feature extraction and selection)等。資料前處理的產出是最終的訓練集。MLBox(machine learning box)AutoML套件就提供了許多資料前處理的功能,甚至提供具高穩健性的特徵選擇與資料洩漏(data leakage,意旨資料特徵與預測目標之因果關係的瑕疵,導致得到非常好的預測結果)偵測功能。