[爆卦]epoch越多越好嗎是什麼？優點缺點精華區懶人包

為什麼這篇epoch越多越好嗎鄉民發文收入到精華區：因為在epoch越多越好嗎這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者arch2453 (玖月)看板DataScience標題[問題] 關於CNN架構設計及GAN的e...

作者arch2453 (玖月)

看板DataScience

標題[問題] 關於CNN架構設計及GAN的epoch設計

時間Sun Jun 10 16:22:03 2018

系統：win10
問題：CNN，GAN
環境：python+jupyter notebook+Keras

各位前輩們好
因為沒在學校修過正規課
平常是看網路教學影片和看書實作
所以有一些不懂的地方想在這裡向前輩們請教

1.
關於GAN實作
我是參考CycleGAN的論文及程式
實現圖片的轉換
較有名的例子是風景變畫或是斑馬變馬

想請問的是Epoch該如何設定會比較好
我目前是固定設定epoch 200
但怎麼確定前面就已經能產生很好的圖片
或是在訓練更多次效果會更好
想請問除了用人眼觀測外
還有其他比較好說服人的方法嗎？
因為不像普通的分類可以使用early stop的方式

2.
在實作CNN的時候
我做的是辨識128x128大小圖片
架構放了三層的convolution 層
但老師質疑為什麼不放更多層
我回答我有嘗試了四層但效果下降
老師卻繼續質疑那可以在放更多到四五層看看
或是乾脆直接用別人現有VGG的19層
而不該使用最簡單的範例model

想請問的是像這些參數：
如層數，filter大小，neuron數的設計
有一定的合理理由嗎
還是只能try & error
比如老師問我FC為什麼要放1000
像這種問題我都覺得很難回答QQ
這些變數的組合實在是太多了Orz

謝謝大家

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.148.68
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1528618925.A.94F.html
※ 編輯: arch2453 (140.113.148.68), 06/10/2018 16:26:52
※ 編輯: arch2453 (140.113.148.68), 06/10/2018 16:27:39

推 siscon: 好像沒啥理由耶就全部試一遍看哪個最好06/10 17:25

真的能嘗試的東西組合太多了QQ

推 jameszhan: 嚴格來說越多層網路能描述的狀況一定比少層的多種06/10 17:38

→ jameszhan: 所以牽扯到的就是資料量跟訓練時間的問題06/10 17:39

→ jameszhan: 你可以試著證明因為資料量不夠參數量變多反而辨識率下06/10 17:40

→ jameszhan: 降不然單單只是層數變多導致辨識率下降這個結論是不06/10 17:41

→ jameszhan: 合理的06/10 17:42

→ christinlove: 你只放三層? 那被釘活該...06/10 18:00

→ christinlove: 通常都是現有的架構試個一輪再嘗試自己改06/10 18:01

→ christinlove: 除了 trail and error 之外可以多看 paper06/10 18:04

→ christinlove: 連推竟然要 30 秒，懶得講了...06/10 18:05

您好
感謝願意回了這麽多
我知道越多層或越多參數理論上會更好
我的訓練量是五萬多筆資料
但該怎麼證明是資料量不夠的問題？

因為我圖片數量比較小想說三層還好
我有嘗試兜一個完全一樣的現有架構vgg19
但推測可能是因為pool層數未更動
導致最後圖片降到太小而辨識率低到4%
理論上大小128*128大概會需要用幾層呢

Paper的話我有google學術網站上
找過所有用到這個DATASET的論文
全部只有一篇使用CNN的方法
但Input不知為何要壓縮成32*32
然後只兜兩層conv就發論文了

謝謝（汗
※ 編輯: arch2453 (140.113.148.68), 06/10/2018 19:29:15

→ chchan1111: 請問你是用哪個資料集呢? 其實這也是蠻重要的 06/10 21:12

→ chchan1111: 用幾層通常是考量任務難度影像大小反而不一定 06/10 21:13

→ chchan1111: 話說推文限30秒會不會太誇張這樣是要怎麼討論啦06/10 21:14

您好
所使用的是2011年的ASL dataset
做24個字母的手勢辨識
※ 編輯: arch2453 (140.113.148.68), 06/10/2018 21:32:11

→ TOEFLiBT100: 你的字可不可以不要那麼亮QQ06/10 22:05

抱歉沒注意到改到顏色QQ

推 st1009: chchan1111很抱歉之前好像不小心動到了設定，目前已經改掉06/10 22:44

推 st1009: 請您再試看看，下次遇到問題時，歡迎來信諮詢板主，謝謝您06/10 22:45

→ st1009: 的熱心分享m(_ _)m06/10 22:45

→ Wush978: 我沒聽過越多層辨識率會越高的說法06/10 23:28

→ Wush978: https://www.slideshare.net/tw_dsconf/ss-6224535106/10 23:33

→ Wush978: Deeper usually does not imply better06/10 23:33

→ Wush978: (p87)06/10 23:34

您好
越多層因為參數越多理應能表示更多種不同的情況
87頁中的多層反而下降應該是後面所提到的
Vanish gradient problem 所造成的影響
因此激活函數使用ReLU 可解決此問題
96頁的投影片因此才實作9層的結果
獲得良好的正確率
我的架構也有使用了ReLU
也謝謝您的意見

目前還在各種交錯嘗試
今天意外發現cov層後疊了dropout 層的效果反而是變差的w
※ 編輯: arch2453 (1.169.138.106), 06/11/2018 00:16:23

推 siscon: 多層理論上會比較好但gradient descent又不保證能找到那 06/11 01:24

→ siscon: 最好的參數組合06/11 01:24

→ siscon: 至於要證明資料量不足我個人覺得可以隨機把比如說5%的資 06/11 01:25

→ siscon: 料刪掉再拿去train 如果metric變爛代表資料不足 06/11 01:26

→ siscon: 這個拿掉5%再重train的動作要做很多次每次拿掉不同的5% 06/11 01:26

→ siscon: 會覺得這樣可以證明資料量不足是因為通常資料量很夠的時 06/11 01:27

→ siscon: 候 train到一半 metric就上不去了後面再train也只是model 06/11 01:27

→ siscon: 極限 06/11 01:27

→ siscon: 所以理論上資料量很夠的時候拿掉5% metric也不會降才對 06/11 01:29

原來如此！
我第一次知道這種方法
感謝！

→ christinlove: 越多層越好 => residual network06/11 05:16

還沒實做過不太熟QQ

推 Wush978: 不是，參數多只是比較有彈性，不是比較好06/11 14:55

→ Wush978: 二十年前統計理論就可以告訴你當參數超過需要的參數時，06/11 14:56

→ Wush978: 會以什麼樣的方式來傷害模型06/11 14:56

推 Wush978: 層數變深的進步主要是針對計算上的問題克服，但是基本統06/11 15:03

→ Wush978: 計的定理是針對「利用數據建模」這件事情去給予限制，這06/11 15:03

→ Wush978: 部分並沒有被突破。06/11 15:03

推 Wush978: 而我們也只能說在影像等應用領域，似乎越深層的模型結構06/11 15:05

→ Wush978: 越接近真理，但是直接下結論越深越好是很危險的。我研究06/11 15:05

→ Wush978: 的廣告領域，深度學習的表現並沒有特別突破，反而是另一06/11 15:05

→ Wush978: 類模型在比賽中是常勝軍。06/11 15:05

推 Wush978: 我今年投稿kdd的實驗中，在處理censoring 的問題時，甚06/11 15:08

→ Wush978: 至沒有證據顯示深度學習一定比linear好...是個很難做的06/11 15:08

→ Wush978: 問題。 06/11 15:08

了解
感謝回答
因為有看過說法是深會變廣來得好
我才三層好像也不深XDDD
只是只能各種調整try&error來希望正確率上升有點不知道該怎麼做Q
※ 編輯: arch2453 (1.169.138.106), 06/11/2018 23:23:15

→ Wush978: 看別人成功的經驗是沒錯的，但是目前在這行，關鍵在實驗 06/12 09:40

→ Wush978: 設計：如何建立有效率的環境讓你快速驗證方法是否適用於 06/12 09:40

→ Wush978: 你的問題 06/12 09:40

→ Wush978: 沒辦法，目前這個領域處於實驗、方法都不太reproducible 06/12 09:41

→ Wush978: 簡單來說，別人覺得有用的方法，在你的問題上不一定有用 06/12 09:41

→ Wush978: 所以就是看別人怎麼做，但是自己要仔細檢驗... 06/12 09:41

→ Wush978: 話說這行目前paper的可信度也不如傳統科學領域，所以驗證 06/12 09:42

→ Wush978: 與懷疑非常非常重要... 06/12 09:42

[爆卦]epoch越多越好嗎是什麼？優點缺點精華區懶人包

為什麼這篇epoch越多越好嗎鄉民發文收入到精華區：因為在epoch越多越好嗎這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者arch2453 (玖月)看板DataScience標題[問題] 關於CNN架構設計及GAN的e...

你可能也想看看

搜尋相關網站

#1深度学习中的epoch,batch_size,iterations含义解析原创

#2深度学习模型训练的时候，一般把epoch设置多大？ - 知乎

#3一、訓練週期(epoch) 與批次(batch) 的意義 - iT 邦幫忙

#4【QA】Batch Size 是甚麼? 會對訓練有何影響? - Cupoy

#5【李宏毅老師2021系列】類神經網路訓練不起來怎麼辦（三）

#6深度学习训练模型中的Epoch，Batchsize，Iterations - emanlee

#7Epoch不仅过时，而且有害？Reddit机器学习板块展开讨论

#8深度学习中为什么要使用多于一个epoch? - 中文社区

#9深度学习中epoch越大越好么_深度学习模型预测 - 华为云

#10深度学习中epoch越大越好么- 华为云

#11深度学习中epoch越大越好么-火山引擎

#12Keras深度学习——批大小对神经网络模型准确率的影响- 掘金

#13李宏毅 - HackMD

#14Epoch vs Batch Size vs Iterations深度學習最基本的概念的介紹

#15FAQ - Epoch School - 時代基金會

#16幫助幼犬穿越馬路 | By 大紀元時報- 台灣(The Epoch Times

#17神經網絡訓練中，Epoch、Batch Size和疊代傻傻分不清? - 壹讀

#18Batch Size 对神经网络训练的影响 - 极市

#19EPOCH | 訂製| 永恆單鑽手鍊 - LZL Jewelry 輕珠寶飾品

#20Keras FAQ：常见问题

#21训练成傻子了，一问三不知· Issue #112 - GitHub

#22网络调参epoch稳定性- OSCHINA - 中文开源技术交流社区

#23深度学习炼丹手册——学习率设置 - 极术社区

#24过拟合与欠拟合 | TensorFlow Core

#25台灣人工智慧學校學習心得報告

#26能不能训多个epoch？怎么微调效率高？需要多少条数据？

#27[攻略心得] lora loha训练个人参数心得 - NGA

#28你真的懂学习率了吗 - AI World

#29TensorFlow 2.x人工智慧、機器學習超炫範例200+(電子書)

#30LoRA训练讲解 - So Tired !_!

#31【小记】BatchSize的数值是设置的越大越好吗 - AI技术聚合

#32面试中问你Batch Size 大小对训练过程的影响 - 开发者头条

#33Epoch不僅過時，而且有害？Reddit機器學習板塊展開討論

#34機器學習自學筆記09: Keras2.0 - Wenwu's blog

#35How It Works知識大圖解 國中自然科大圖解: 切合十二年國民基本教育自然科學課程綱要，精選15個單元、69篇專文！

#36学习率(learning rate) -- 深度学习| We all are data. - pointborn

#37拟合模型时，批量大小和历时数应该是多大？ - 七牛云

#38[問題] 關於CNN架構設計及GAN的epoch設計- 看板DataScience

#39高细节模式训练参数 - Cognex

#40训练过程--Batchsize（先不整理了，总之一般情况下 ... - MaTools

#41台灣《大紀元時報》線上訂報

#42如何解决神经网络训练时loss不下降的问题 - AI柠檬

#43台灣精品獎-EPOCH高效率紫晶真空管太陽能熱水器 - YouTube

#44神经网络训练中，傻傻分不清Epoch、Batch Size和迭代

#45NU SKIN 如新台灣- 預見更好的自己

#46学习率设置（Warm Up、loss自适应衰减等），batch size调优 ...

#47卷积神经网络训练三个概念（epoch，迭代次数，batchsize）

#48云光科技

#49ML Lecture 9-1: Tips for Training DNN - AINTU 講義

#50深度学习基础入门篇[六]：模型调优，学习率设置等

#51EPOCH拼圖單件75折、2件7折 - Funbox - 麗嬰國際

#35How It Works知識大圖解國中自然科大圖解: 切合十二年國民基本教育自然科學課程綱要，精選15個單元、69篇專文！