首先,该研究训练了一个ViT-VQGAN-Small 模型(8 个块,8 个头,模型维度512,隐藏维度2048,总参数约为30M),并且学习了8192 张图像token 类别用于 ...
確定! 回上一頁