Zhangzhe's Blog

The projection of my life.

0%

GPT2: Language Models are Unsupervised Multitask Learners

URL

TL;DR

  • Bert 全方位打败 GPT 之后,OpenAI 推出了参数量更大的 GPT2
  • GPT2 与之前所有的 NLP 预训练模型使用的 自监督预训练 + 任务相关 fine-tuning 范式不同,GPT2 不再需要任何数据相关 fine-tuning,而是使用 prompt(提示词)
  • prompt(提示词) 是一段在模型推理阶段用于描述任务的文本,通常加在问题之前,起到提示模型的作用

Algorithm

GPT2 很大程度上只是 GPT 的放大版,所引入的创新并不多

  • 使用了 Byte Pair Encoding(BPE) 分词算法,本质是一种贪心算法

  • 由于自回归(auto-regression)模型推理容易出现死循环,所以本文提出一种 top-k 输出按 softmax 概率采样的 trick,增加模型的随机性

Thought

  • GPT2 最重要的作用是提出了使用 Prompt 替代 fine-tuning 的范式,为之后的 AIGC 大面积推广扫平了障碍