Zhangzhe's Blog

The projection of my life.

0%

GPT3:Language Models are Few-Shot Learners

URL

TL;DR

  • 作者团队训练了一个 96Transformer1750 亿参数的超大模型(GPT2 只有约 15 亿参数),在下游任务上无需 fine-tuning 即可得到很好的效果。
  • 本质是 GPT2 的放大版(参数量放大了一百多倍)

Algorithm

  • 在下游任务上,可以使用 Zero ShotOne ShotFew Shot 三种方式推理模型,下图以英语翻译法语的例子介绍三者的区别:
    GPT3.png
  • GPT3 系列模型详细设置:
    GP3_1.png
  • GPT3 自监督训练数据:
    GP3_2.png

使用了 common crawl 数据集,由于 common crawl 数据集很脏,所以训练是数据采样率并不高

  • 下图是在几个下游任务上和 SOTA 算法的比较:
    GPT3_3.png
    GPT3_5.png
    GPT3_4.png

从普遍表现看,GPT3 few shot 效果 > one shot > zero shot,不一定比 SOTA 点高(SOTA 普遍使用了 fine tuning,直接比较不公平)

Thought

  • 在某些任务上,GPT3 few shot 效果可媲美 fine tuning SOTA,可以说明 GPT3 还是非常强大的
  • 比上一代参数量提高一百多倍,开启了大模型时代…