RoBERTa#
RoBERTa 的全称是 Robustly optimized BERT approach。
RoBERTa 是在 bert 的基础上做了一些改进,这些改进并不是设计什么新颖的结构,而是尽量使模型得到更充分的预训练,释放 bert 模型的潜力。
改进共有四个方面:
- 使用更大的 batch-size,更大的数据集,做更充分的训练;
- 使用的数据中具有更大的 sequence length,而不是像 bert 中会掺杂一些短句;
- 移除 NSP 任务;
- 将静态 mask 机制改为动态 mask 机制;
另外还有一个是 tokenize 时使用的是与 GPT-2 相同的 BPE 策略。
做了上述改进之后,指标有所提升。