网络结构如上图所示,给定一张HxWx3的图像,先分成4x4大小的patch序列(ViT使用 16x16 ,更小的patch对dense prediction越有益),然后送入SegFormer的 ...
確定! 回上一頁