Toolformer: Language Models Can Teach Themselves to Use Tools

URL

众所周知，大模型在很多任务上表现出色，但它们并不是全能的，比如去数 “strawberry” 这个单词中有多少个 “r”。
工具可以帮助大模型更好地解决问题，比如计算器、日历、知识库等。
一种常见的大模型和工具结合的方式是：通过 Agent 多角色（user / llm / function）多轮对话 形式调用，简单来说就是：
1. 大模型在需要调用工具的时候，输出一段特定格式的文本
2. 外部程序解析这段文本，调用相应的工具，调用得到结果
3. 新的结果作为 Function 角色的输入，继续和大模型对话
而 ToolFormer 采用的方式和 Agent 有相似之处，也有不同的地方：
- 相似点：
  1. 都需要大模型输出一段特定格式的文本来调用工具
  2. 都需要一段 endless loop 程序来解析大模型的输出，调用工具
- 不同点：
  1. ToolFormer 不是通过 多角色多轮对话 的方式调用工具，而是通过 单角色单轮对话 的方式调用工具
  2. ToolFormer 需要对大模型进行微调，而 Agent 不需要
ToolFormer 可以将存在确定答案的专用任务转化为工具调用任务（例如：计算、翻译、问答等），让大模型可以更专注在通用任务上（例如：上下文理解、常识知识运用等）。

ToolFormer 是经过工具调用微调的大模型，知道有哪些工具可以调用，也知道如何调用这些工具。
假设模型输入的问题是：
1
Pittsburgh is also known as
这个时候，模型会意识到这个问题可以通过调用 Question Answering 工具来解决，于是模型会续写：
1
Pittsburgh is also known as <API>QA(Pittsburgh is also known as)</API>
输出 </API> 之后，推理进程会暂停推理模型，等待外部监听程序的调用结束。
外部监听程序会解析模型输出文本中的工具调用指令（通过 <API> </API> 格式），然后调用 Question Answering 工具，得到结果：
1
the Steel City
推理程序将工具调用结果和模型的历史输出（去掉调用相关信息）拼接起来，继续推理模型：
1
Pittsburgh is also known as the Steel City.

上面这张图展示了如何用大模型来构造工具调用数据集的流程。

然后，使用大模型（例如：GPT-3）来在数据中找到可以调用工具的位置和工具类型，并给出调用工具的参数，例如：

1	Pittsburgh is also known as <API>QA(What other name is Pittsburgh known by?) -> Steel City</API> the Steel City.

1	Pittsburgh is also known as <API>QA(Which country is Pittsburgh in?) -> United States</API> the Steel City.

ToolFormer 这种通过大模型自我学习使用工具的方式感觉挺好的，但似乎在实际使用中没有得到大范围推广，目前主流外挂工具的方式基本还是 Agent 的多角色多轮对话方式。
可能是因为 ToolFormer 的方式需要对大模型进行微调，而 Agent 的方式不需要微调，直接使用预训练模型就可以。