ELMo 利用獨立訓練的雙向兩層LSTM 做語言模型並將中間得到的隱狀態向量串接當作每個詞彙的contextual word repr.;GPT 則是使用Transformer 的Decoder 來 ...
確定! 回上一頁