ToolTalk:微软发布的一个用以评测大语言模型工具使用能力的评测工具和评测数据集
随着大语言模型能力的提升,大语言模型已经不再被认为是一个纯粹的文本输出模型了。在很多的生产应用领域,如客服机器人、项目管理、编程辅助等都有很多的应用。这些应用领域强调的是大语言模型对于工具的选择和使用。这意味着要求模型可以识别常见的工具,如API接口、脚本语言等,也需要大语言模型有更好的推理和任务的分解能力。这些对于大语言模型能力的评测也提出的新的要求。

为了更好地评估大语言模型的工具使用能力,微软的研究人员提出了ToolTalk Benchmark基准测试工具,可以帮助我们更加简单地理解大语言模型在工具使用方面的水准。ToolTalk是微软在2023年11月发布的,来自于论文《ToolTalk: Evaluating Tool-Usage in a Conversational Setting》
