URL
- paper: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- code: https://github.com/openai/gpt-2
- demo code: https://github.com/karpathy/minGPT
TL;DR
- 继
Bert全方位打败GPT之后,OpenAI推出了参数量更大的GPT2 - 但
GPT2与之前所有的NLP预训练模型使用的 自监督预训练 + 任务相关 fine-tuning 范式不同,GPT2不再需要任何数据相关fine-tuning,而是使用prompt(提示词) prompt(提示词) 是一段在模型推理阶段用于描述任务的文本,通常加在问题之前,起到提示模型的作用
Algorithm
GPT2 很大程度上只是 GPT 的放大版,所引入的创新并不多
- 使用了
Byte Pair Encoding(BPE)分词算法,本质是一种贪心算法 - 由于自回归(
auto-regression)模型推理容易出现死循环,所以本文提出一种top-k输出按softmax概率采样的trick,增加模型的随机性
Thought
GPT2最重要的作用是提出了使用Prompt替代fine-tuning的范式,为之后的AIGC大面积推广扫平了障碍