[爆卦]q-learning實作是什麼?優點缺點精華區懶人包

為什麼這篇q-learning實作鄉民發文收入到精華區:因為在q-learning實作這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者blackmaninEE (黑人電機機)看板NTHU_Course標題[心得] 深度學習 吳尚鴻...


課名:深度學習
科號:CS5656
老師:吳尚鴻
課本:無
課別:資工系碩士班課程
學分:3
涼度:★★
甜度:★★★★★
建議先修課程:線性代數、機率、程式設計

課程內容\簡介:
這個課程主要分為六個部分:
(1) Math (Linear Algebra, Probability…)
(2) Machine Learning (SVM, ensemble…)
(3) Neural Networks (Optimization, Regularization…)
(4) Convolutional Neural Networks (Object Detection, Style Transfer, GAN…)
(5) Recurrent Neural Networks (Attention, Image Captioning…)
(6) Reinforcement Learning (Q-learning, DRL…)
基本上整個課程像是Deep Learning的一個總覽,幾乎大部分常見的Deep Learning架構都
會被提到。前面會先講解基礎數學以及基礎ML的知識,後面進入Neural Networks的部分
,CNN、RNN就講解一些常見的tasks以及經典的models,比較像是介紹的成分居多。最後
,則是講了基本的強化學習(RL)理論。
我認為老師的slide是這堂課的精華,個人認為ML以及RL的講義寫得很好,有數學推導但
不會過於艱深,適合想要入門的人學習。
上課方式:每週有兩節課是由教授上課,剩下的一節課留給助教講述Lab細節以及Competi
tion的內容。因為要上的內容太多,所以老師上課會以重點講解大概念為主,想了解細節
的部分可以看網路上錄好的教學影片或是詳讀該章節的reference paper。

給分:
Quiz 20%
Lab * 10 40%
Competition * 4 40%
Bonus lab * 5 5 %

考試作業型態:
(1) Quiz:
期初考並不會太難,主要範圍是Deep Learning的基礎數學理論,身邊同學說只要讀過一
次範圍就可以考80分以上。

(2) Lab:
Lab為大概每周一次,繳交期限為一周,主要是Python實作,內容會依照目前上課上到的
部分決定。例如: 現在課程進度到RNN,Lab就會實作句子翻譯和Image Captioning (辨識
圖片中的文字)等等RNN相關的應用。
Lab不會很難,助教很厲害都會先把大部分的code都寫好,只要完成缺少的部分即可,不
用處理I/O或是data format等問題。而且Lab的notebook都寫的很好,好好閱讀後實作完
,打code功力會提升許多。

(3) Competition:
這學期一共有4次小組競賽,分別做了:
1. News Popularity Prediction
2. Object Detection
3. Reverse Image Captioning
4. Flappy Bird
學期初會進行分組,大概2~4個人一組。在每一次競賽,每一組會訓練並產生prediction(
或是output)並上傳到Kaggle去比拚,performance越好的組別能拿到的成績越高。每一次
的競賽只會有2週的時限,個人覺得時間壓力算大。
我認為競賽是這門課的精隨,透過競賽才能更了解如何實作Deep Learning的frameworks
,其中包括: 調參數、選model架構、選embedding等等。因為是競賽,有些厲害的組別還
會去把一些最新的model手刻出來,直接虐爆全班。值得一提的是,每次競賽前三名的組
別,可以上台跟全班報告自己使用的方法ㄛ!

今年有特別規定競賽要使用Tensorflow 2.0去自行實作,可能是因為往年很多人都直接抄
Github上面的code虐人(Tensorflow 1.0, PyTorch),造成競賽的不公平。

老師的喜好、個性:老師專業中帶一點幽默,上課氣氛不錯。

給加簽嗎?
會先全部簽,但是開學第三週會有一次期初quiz,會依照quiz成績來決定是否能修這門課
。今年條件是成績在班上前70名。

補充: 我覺得這門課有GPU很重要,有GPU就是老大,因為競賽幾乎都要訓練很久,如果用
Colab訓練會等到天荒地老。另外,組員也很重要,厲害的組員帶你上天堂。像是在第四
次競賽(Flappy Bird),助教說只要能訓練frame-based model並成功過五根管子,就直接
加總成績5分。我的組員聽到後就瘋狂訓練燒GPU,最後我們這組因此成功加到分。

總成績/班上排名:100/1
成績: A+
成績分布:未公開,但是根據助教公布的成績,全班有大概一半A+、四分之一A,個人覺
得算是扎實甜。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.124.164 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/NTHU_Course/M.1612025203.A.31D.html
yang20913 : 推推 第一名大佬XD 01/31 02:53
yang20913 : 可以請教frame based是怎麼做的嗎 我都train不起來=01/31 02:53
yang20913 : =01/31 02:53
用PPO + 類似助教前面DRL Lab的CNN架構 + screen cropping 哦
※ 編輯: blackmaninEE (223.140.124.164 臺灣), 01/31/2021 10:58:16
yang20913 : 哦哦 感謝XD 01/31 12:16
yang20913 : 抱歉 按到噓.. 補推 01/31 17:08

你可能也想看看

搜尋相關網站