[爆卦]l1 l2正規化是什麼？優點缺點精華區懶人包

為什麼這篇l1 l2正規化鄉民發文收入到精華區：因為在l1 l2正規化這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者bibo9901 (function(){})()看板DataScience標題Re: [問題]...

作者bibo9901 (function(){})()

看板DataScience

標題Re: [問題] L1與L2正規化的差別

時間Thu Apr 12 07:18:32 2018

※ 引述《bokxko1023 (bokxko1023)》之銘言：
: 在網路上看了不少文章，但還是無法理解為何L1會具有稀疏的特性？這兩者的具體差別到
: 底是什麼呢，能用gradient descent 在微分時的差別來解釋嗎？
: 另外想請問大家是怎麼選正規化的權重alpha的？雖說知道是用trial and error，但數字
: 範圍這麼廣，有沒有限縮範圍的方法呢？
: 感謝大家

推文裡提到一些觀點都不太嚴謹 (可能是我想像力太差)

1. 每次梯度下降的大小是L1>L2:

格局太小不說(離了GD推論就無效), 迭代的過程只是想當然耳,

每一步用的梯度大小應該只影響收斂速度而非收斂到的值,
難道是原來就有稀疏解, 只是用L1比較快?

那麼不用L1但增加learning rate或多迭代幾次, 為什麼不會解到零?

2. 等高線優先撞到角角、相當於lagrange的某個式子...:

更複雜的想當然耳, 為什麼極值一定在邊邊角角?
又為什麼邊上的每個點機率是一樣的?
碰到線段上的某定點的機率是0, 應該是「很難」碰到頂點吧?

甚至, 如果降到1維, 整個推論就變得很荒謬:
因為 x 的範圍都在 [-C, +C], 線段一樣, 頂點一樣, 範圍裡等高線也一樣,
此時 L1, L2, L3, ... 沒有差別, 而且一定收斂到 -C 或 +C (保證不稀疏)

這解釋跟本禁不起推敲

其實可以直接求"存在稀疏解"的條件

假設原損失函數 f(x) 在 x=0 可微,
R(x) 是 regularization term,
a 是 regularization 的權重

則 f(x) + a R(x) 在 x=0 處有最小值(稀疏解) 的定義是:

存在一點 x0 > 0, 使得

for all h in [-x0, x0]

恒有 f(h) + a R(h) >= f(0) + a R(0),

即 f(h) - f(0) >= -a [ R(h) - R(0) ]

把式子兩邊同時除以 h，並分別取 0 的左右極限
因為是不等式, 所以 h 的正負需分開討論

<=> lim{h->0+} [f(h)-f(0)]/h >= lim{h->0+} -a [R(h)-R(0)]/h

且

lim{h->0-} [f(h)-f(0)]/h <= lim{h->0-} -a [R(h)-R(0)]/h

由於 f 在 0 可微, 所以上兩式的左項相等, 即 f'(0)

整理得

<=> -a R'(0+) <= f'(0) <= -a R'(0-)

其中 R'(0+) 為 R 在 0 的右導數,
R'(0-) 為 R 在 0 的左導數.

所以,

L1:
R(x) = |x|, R'(0+)=1, R'(0-)=-1, 有稀疏解的充要條件是 -a <= f'(0) <= a

L2:
R(x) = x^2, R'(0+)=0, R'(0-)=0 , 有稀疏解的充要條件是 0 <= f'(0) <= 0

換句話說:

用 L1 時, 只要 f 在原點的梯度絕對值 <= 正則的權重，
x=0 就會是區域極小
甚至 f 沒有極值都可以 (e.g., x^3 + |x|)

可以想成 "無論f是什麼樣子, 只要在0附近足夠平緩, 加上L1就會有稀疏解"
當然能不能解到是另一回事

但用 L2 時, 只有原來 f'(0) = 0 才會有稀疏解,
也就是說加上 L2, 對稀疏解沒有幫助

也可以機率的觀點來看
regularization相當於強迫參數服從於特定的prior distribution
而L1對應的分佈相較L2集中在零點
這有機會再說了

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 174.119.85.87
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1523488715.A.DAE.html
※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 07:20:54
※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 09:12:14
※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 09:13:34

推 goldflower: 推 04/12 12:33

推 sxskr1001: 推 04/12 12:55

※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 13:51:29
※ 編輯: bibo9901 (174.119.85.87), 04/12/2018 14:06:14

推 lucien0410: 推數據科學家的超能力不是數學運算是數學想像力! 04/12 15:42

推 AmibaGelos: 大推! 從input來看扣掉需要非0 filter的features 其 04/13 12:52

→ AmibaGelos: 它dof是在學noise 用L2的話noise只是rescale 用L1的 04/13 12:52

→ AmibaGelos: 話就是把scattering<regularization strength的砍掉 04/13 12:52

推 goldflower: 話說我一直覺得regularization用機率的角度來看他的 04/13 15:26

→ goldflower: 假設會不會太強啊一直有這種疑問XD 04/13 15:27

推 a78998042a: 推推 05/02 15:09

[爆卦]l1 l2正規化是什麼？優點缺點精華區懶人包

為什麼這篇l1 l2正規化鄉民發文收入到精華區：因為在l1 l2正規化這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者bibo9901 (function(){})()看板DataScience標題Re: [問題]...

你可能也想看看

搜尋相關網站

#1Google ML課程筆記- Overfitting 與L1 /L2 Regularization

#2機器學習-正規化(Regularization)

#3L1 L2正規化的詳解以及Scikit-learn上基於L1 L2正規化正則化 ...

#4[資料分析&機器學習] 第5.4講: 機器學習進階實用技巧-正規化

#5測試回合-L1 和L2 正規化為機器學習 - Microsoft Docs

#6什麼是L1 L2 正規化正則化Regularization (深度學習deep ...

#7L1與L2正則化 - 程式前沿

#8L1 L2正規化 - w3c學習教程

#9L1和L2正則化 - 程序員學院

#10機器學習基石學習筆記(4)：機器可以怎麼學得更好?

#113.9 L1 / L2 正规化(Regularization)

#12Re: [問題] L1與L2正規化的差別- 看板DataScience - 批踢踢實業坊

#13機器學習中的範數規則化L0,L1和L2正規化 - w3c菜鳥教程

#14正則化L1和L2 - 台部落

#15L1和L2正則化的直觀解釋 - 每日頭條

#16什么是L1 L2 正规化正则化Regularization (深度学习deep ...

#17深入理解L1 L2 正则

#18前往什麼是L1 L2 正規化正則化Regularization (深度學習deep

#19regularization 機器學習 - Smitten

#20培訓參數- Amazon Machine Learning

#21林軒田機器學習基石筆記- 第十四講 - HackMD

#22什么是L1 L2 正规化正则化Regularization-深度学习(周莫烦)

#23L0，L1，L2正則化

#24l1正規化

#25损失函数和正则化- 凌逆战 - 博客园

#26什么是L1 L2 正规化正则化Regularization (深度学习deep ...

#27模型選擇（GLE 模型） - IBM

#28关于L1、L2正规化的一些疑问？ - 知乎

#29針對一次正則化及分組一次正則化問題的隨機活動集近端擬牛頓法

#30權值衰減和L2正則化傻傻分不清楚？ - 知乎

#31人工智慧-什麼是擬合過度(Overfitting) - 大大通

#32Overfitting · Machine Learning - Bobtai

#33L1、L2正則(Regularization )簡介 | 健康跟著走

#34L1範數正則化:定義,原理 - 中文百科全書

#35正则化Regularizers - Keras 中文文档

#36正則化正規化深入理解L1、L2正則化原理與作用 - RJHI

#37關於L1正則化和L2正則化的一些理解 - 程式人生

#38第13 章監督式學習

#39正則化l1 l2

#40L1和L2：損失函數和正則化

#41邏輯迴歸- 二元分類問題- Scikit-Learn - Sklearn 實作教學

#42正規化迴歸(Regularized Regression)

#43Two-Class 羅吉斯回歸 - GitHub

#44Data Augmentation 資料增強 - CAVEDU教育團隊技術部落格

#45pytorch 實現L2和L1正則化regularization的操作 - WalkonNet

#46Ethport：Loopring 與L1/L2/CEX 的雙向航線-「Rollup - 鏈報

#47機器學習演算法動手硬幹: 用PyTorch+Jupyter最佳組合達成 - 誠品

#48過度擬合(Over-fitting): 模型路上的必經難解題 - 書寫觀點.tw

#49Tips for Deep Learning-如果Testing data 的效果不好怎麼辦?

#50TQC 人工智慧應用及技術第四類第1~20題 - 資訊文生研習室

#51PyTorch 實現L2正則化以及Dropout的操作 - IT145.com

#52Lasso 迴歸於可詮釋預測分析：強階層與樹狀結構 - 政治大學

#53第15 章：深度學習 - SAS Viya

#54SAS® 視覺資料探勘與機器學習

#55Data Augmentation 資料增強 - CH.Tseng

#56人工智慧概論 - 國立聯合大學

#57L1正則化的稀疏性解釋- 純淨天空

#58資料科學演算法前導，線性迴歸系列資訊理論的統計思考(2)

#59[SQL Server][Machine Learning]使用MicrosoftML套件預測紐約 ...

#60深度学习中的正则化策略综述（附Python代码） - 作业部落

#61正則化の種類と目的 L1正則化 L2正則化について - AVILEN AI ...

#62【機器學習】L1正則化與L2正則化的理解

#63正則化(數學) - 維基百科，自由的百科全書

#64在PyTorch中添加L1/L2正則化？ - 優文庫

#65十二月2016 - DatouHsu的Blog

#66評估機器學習模型

#67NTU-Coursera機器學習:過擬合(Overfitting)與正規化 - 壹讀

#68PythonでベクトルをL2正規化(normalization)する方法一覧 - Qiita

#69母語與非母語英語之韻律模型建立A prosody modeling ...

#70機器學習_ML_LogisticRegression - 藤原栗子工作室

#71机器学习l1 相比于l2 为什么容易获得稀疏解？ - 程序员大本营

#72在PyTorch中添加L1 / L2正则化？

#73正則化regularization 正則化 - Napf

#74正則化機械學習過擬合機器學習 - Lyins

#757. 特徴選択とL1正則化 (1) - 筑波大学オープンコースウェア

#76深度學習中的正則化技術(附Python代碼) - 知識星球

#88【城プロ】絢爛アラゴはどんな感じになるのかな？改めて ...