[隐藏左侧目录栏][显示左侧目录栏]

RoBERTa#

原论文链接: https://arxiv.org/pdf/1907.11692.pdf

RoBERTa 的全称是 Robustly optimized BERT approach。

RoBERTa 是在 bert 的基础上做了一些改进,这些改进并不是设计什么新颖的结构,而是尽量使模型得到更充分的预训练,释放 bert 模型的潜力。

改进共有四个方面:

  • 使用更大的 batch-size,更大的数据集,做更充分的训练;
  • 使用的数据中具有更大的 sequence length,而不是像 bert 中会掺杂一些短句;
  • 移除 NSP 任务;
  • 将静态 mask 机制改为动态 mask 机制;

另外还有一个是 tokenize 时使用的是与 GPT-2 相同的 BPE 策略。

做了上述改进之后,指标有所提升。