Fine -tuning learning rate方面我參考BERT,使用4組learning rate[5e-5, 4e-5, 3e-5, 2e-5]對整個model進行fine-tune,8筆一個batch跑5個epoch,結果 ...
確定! 回上一頁