RoBERTa#

原论文链接: https://arxiv.org/pdf/1907.11692.pdf

RoBERTa 的全称是 Robustly optimized BERT approach。

RoBERTa 是在 bert 的基础上做了一些改进，这些改进并不是设计什么新颖的结构，而是尽量使模型得到更充分的预训练，释放 bert 模型的潜力。

改进共有四个方面：

另外还有一个是 tokenize 时使用的是与 GPT-2 相同的 BPE 策略。

做了上述改进之后，指标有所提升。