URL
TL;DR
- 作者团队训练了一个
96
层Transformer
共1750
亿参数的超大模型(GPT2
只有约15
亿参数),在下游任务上无需fine-tuning
即可得到很好的效果。 - 本质是
GPT2
的放大版(参数量放大了一百多倍)
Algorithm
- 在下游任务上,可以使用
Zero Shot
、One Shot
、Few Shot
三种方式推理模型,下图以英语翻译法语的例子介绍三者的区别:
- GPT3 系列模型详细设置:
- GPT3 自监督训练数据:
使用了
common crawl
数据集,由于common crawl
数据集很脏,所以训练是数据采样率并不高
- 下图是在几个下游任务上和 SOTA 算法的比较:
从普遍表现看,GPT3 few shot 效果 > one shot > zero shot,不一定比 SOTA 点高(SOTA 普遍使用了 fine tuning,直接比较不公平)
Thought
- 在某些任务上,
GPT3 few shot
效果可媲美fine tuning SOTA
,可以说明GPT3
还是非常强大的 - 比上一代参数量提高一百多倍,开启了大模型时代…