0%

GPT2: Language Models are Unsupervised Multitask Learners

Posted on 2023-05-16 Edited on 2025-03-21 In Self-Supervised Learning Valine:

URL

TL;DR

继 Bert 全方位打败 GPT 之后，OpenAI 推出了参数量更大的 GPT2
但 GPT2 与之前所有的 NLP 预训练模型使用的 自监督预训练 + 任务相关 fine-tuning 范式不同，GPT2 不再需要任何数据相关 fine-tuning，而是使用 prompt（提示词）
prompt（提示词） 是一段在模型推理阶段用于描述任务的文本，通常加在问题之前，起到提示模型的作用

Algorithm

GPT2 很大程度上只是 GPT 的放大版，所引入的创新并不多

使用了 Byte Pair Encoding（BPE） 分词算法，本质是一种贪心算法
由于自回归（auto-regression）模型推理容易出现死循环，所以本文提出一种 top-k 输出按 softmax 概率采样的 trick，增加模型的随机性

Thought

GPT2 最重要的作用是提出了使用 Prompt 替代 fine-tuning 的范式，为之后的 AIGC 大面积推广扫平了障碍