0%

GPT3:Language Models are Few-Shot Learners

Posted on 2023-06-30 Edited on 2025-03-21 In Self-Supervised Learning Valine:

URL

paper: https://arxiv.org/pdf/2005.14165.pdf

TL;DR

作者团队训练了一个 96 层 Transformer 共 1750 亿参数的超大模型（GPT2 只有约 15 亿参数），在下游任务上无需 fine-tuning 即可得到很好的效果。
本质是 GPT2 的放大版（参数量放大了一百多倍）

Algorithm

在下游任务上，可以使用 Zero Shot、One Shot、Few Shot 三种方式推理模型，下图以英语翻译法语的例子介绍三者的区别：
GPT3 系列模型详细设置：
GPT3 自监督训练数据：

使用了 common crawl 数据集，由于 common crawl 数据集很脏，所以训练是数据采样率并不高

下图是在几个下游任务上和 SOTA 算法的比较：

从普遍表现看，GPT3 few shot 效果 > one shot > zero shot，不一定比 SOTA 点高（SOTA 普遍使用了 fine tuning，直接比较不公平）

Thought

在某些任务上，GPT3 few shot 效果可媲美 fine tuning SOTA，可以说明 GPT3 还是非常强大的
比上一代参数量提高一百多倍，开启了大模型时代…