BERT 在预训练中使用[MASK],而在调优的真实数据中并不存在,两个阶段存在使用模式不一致的情形,这可能会带来一定的性能损。 [MASK] 的另一个缺点是它假设这些被Mask掉的 ...
確定! 回上一頁