[爆卦]交叉熵損失函數是什麼?優點缺點精華區懶人包

雖然這篇交叉熵損失函數鄉民發文沒有被收入到精華區:在交叉熵損失函數這個話題中,我們另外找到其它相關的精選爆讚文章

在 交叉熵損失函數產品中有1篇Facebook貼文,粉絲數超過1萬的網紅DeepBelief.ai 深度學習,也在其Facebook貼文中提到, 最近有兩種很有趣數據增強手法,一個是依照透明度把兩張圖片疊合的mixup,以及以不定大小位置的塊狀互換的方式的cutmix,前者在計算交叉熵時是以兩種標籤0.5/0.5方式計算,後者則是依照色塊大小比例分攤,實作都不複雜,由於這兩種手法都可以直接整個批次tensor一次處理,不需逐張處理,也因此計算...

  • 交叉熵損失函數 在 DeepBelief.ai 深度學習 Facebook 的最佳解答

    2020-01-12 21:57:40
    有 45 人按讚

    最近有兩種很有趣數據增強手法,一個是依照透明度把兩張圖片疊合的mixup,以及以不定大小位置的塊狀互換的方式的cutmix,前者在計算交叉熵時是以兩種標籤0.5/0.5方式計算,後者則是依照色塊大小比例分攤,實作都不複雜,由於這兩種手法都可以直接整個批次tensor一次處理,不需逐張處理,也因此計算開銷不是很大(附圖是我實現的圖),但我並不像原作如此大膽只使用這種樣本訓練,我採取損失函數疊加,傳統圖像分類交叉熵再加上0.5倍的mixup/cutmix樣本交叉熵。

    初步測試結果,用了的確收斂速度變快,雖然top 3 accuracy差不多,但是用了mixup/cutmix的top1 accuracy就高出了5%左右,mixup效果看起來是穩定一些,cutmix 效果比較起伏,我認為是有剛好物體不在色塊中的狀況干擾了cutmix的效果,所以我覺得這些技術可以成為輔助訓練提升幾個百分點的trick,基本上還不能算是影響重大的新概念。

    但這類算法能解決一個困擾已久的問題,那就是onehot形式的標籤是建構在只有一個完美答案的前提下,但是數據可能有標注錯誤,分類也有可能會有模糊地帶,利用這兩種方法就直接打破onehot 的概念,從fit標籤的值,變成去fit標籤的分佈,這讓機器從原有的「不是答案就算錯」的onehot思維,轉換到「那些是最有可能的答案」的分佈思維,這樣標籤標注錯誤與分類模糊區域的問題也可以基於fit 標籤的分佈的思路迎刃而解,所以也算是使用這兩個技術的另一種正面意義

    mixup : https://arxiv.org/pdf/1710.09412
    cutmix : https://arxiv.org/abs/1905.04899

你可能也想看看

搜尋相關網站

A PHP Error was encountered

Severity: Core Warning

Message: Module 'imagick' already loaded

Filename: Unknown

Line Number: 0

Backtrace: