這裡主要由幾個模型組合而成,包含提取文字特徵的tokenizer與text encoder;為了整合圖與文字,表現出不錯的latent representation,就需要U-Net;最後則 ...
確定! 回上一頁