URL
- paper: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- code: https://github.com/openai/gpt-2
- demo code: https://github.com/karpathy/minGPT
TL;DR
- 继
Bert
全方位打败GPT
之后,OpenAI
推出了参数量更大的GPT2
- 但
GPT2
与之前所有的NLP
预训练模型使用的 自监督预训练 + 任务相关 fine-tuning 范式不同,GPT2
不再需要任何数据相关fine-tuning
,而是使用prompt
(提示词) prompt
(提示词) 是一段在模型推理阶段用于描述任务的文本,通常加在问题之前,起到提示模型的作用
Algorithm
GPT2
很大程度上只是 GPT
的放大版,所引入的创新并不多
- 使用了
Byte Pair Encoding(BPE)
分词算法,本质是一种贪心算法 - 由于自回归(
auto-regression
)模型推理容易出现死循环,所以本文提出一种top-k
输出按softmax
概率采样的trick
,增加模型的随机性
Thought
GPT2
最重要的作用是提出了使用Prompt
替代fine-tuning
的范式,为之后的AIGC
大面积推广扫平了障碍