在论文中,Google 使用2048 个TPU v3 cores 花4 天时间训练了一个6 千亿参数的模型。 图2:GShard 的设计(图片来源https://arxiv.org/pdf/2006.16668.pdf ...
確定! 回上一頁