将这一思想应用到如BERT 的预训练的模型上,我们可以把模型的Layer 视作是一个固定的时间步/深度,则BERT(base) 实际上对每个样本都同等地执行了12 层的前向计算。然而, ...
確定! 回上一頁