Layer Transfer. 影片15:10秒開始有誤,把target data 講成source data; Speech: 通常copy 最後幾層,重新訓練input的那幾層. 從"發音方式" 轉換到"預測結果" 與說話者 ...
確定! 回上一頁