Zhangzhe's Blog

The projection of my life.

0%

The Power of Scale for Parameter-Efficient Prompt Tuning

URL

TL;DR

  • 本文提出的 prompt tuningprefix tuning 非常相似,是一种通过给不同任务输入前添加不同前缀,同时冻结原预训练模型参数的微调方式
  • prefix tuning 区别主要在前缀词向量的设置和初始化方式方面

Algorithm

prompt_tuning.png

Prompt tuning 的前缀词向量长度应该设置多少?

  • 作者实验了 {1, 5, 20, 100, 150} 等长度的前缀长度,结论是 20 最合适,超过 20 收益可忽略

Prompt tuning 的前缀初始化方式

  • 作者实验了三种前缀初始化方式:

    1. 随机初始化(和 prefix tuning 一致)
    2. 从词表中随机选择常见词初始化
    3. 用自然语言描述任务,并将其根据词表转化为词向量
  • 实验结论是:第三种方式最优

其他部分

  • 我没看出来和 prefix tuning 有任何不同,甚至本文对 prefix tuning 的理解甚至都是错的

Thought

  • 我认为这篇论文在 prefix tuning 的基础上改动较小,比较水