其中ViT那篇论文,也就是开头讲到的谷歌大脑的那篇,使用的就是纯粹的Transformer去完成视觉任务,也就是说,它没有使用任何的CNNs。我知道你现在很想知道这句话是什么意思 ...
確定! 回上一頁