HuggingFace发布few-shot神器SetFit

原文摘要：最近的一些方法，如参数有效微调（PEFT）和模式利用训练（PET），在标签稀缺的情况下取得了令人印象深刻的结果。然而，它们很难被采用，因为它们受制于手工制作的提示语的高变异性，并且通常需要十亿个参数的语言模型来实现高精确度。为了解决这些缺陷，我们提出了SetFit（句子变换器微调），这是一个高效且无提示的框架，用于对句子变换器（ST）进行少量微调。SetFit的工作原理是，首先以对比连带的方式，在少量的文本对上对预训练的ST进行微调。然后，产生的模型被用来生成丰富的文本嵌入，这些嵌入被用来训练一个分类头。这个简单的框架不需要任何提示或口头语，并且以比现有技术少几个数量级的参数实现了高精确度。我们的实验表明，SetFit获得了与PEFT和PET技术相当的结果，同时其训练速度快了一个数量级。我们还表明，SetFit可以在多语言环境中应用，只需切换ST主体即可。我们的代码可以在这个https URL上找到，我们的数据集可以在这个https URL上找到。

少量标记的学习（Few-shot learning）是一种在较少标注数据集中进行模型训练的一种学习方法。为了解决大量标注数据难以获取的情况，利用预训练模型，在少量标记的数据中进行微调是一种新的帮助我们进行模型训练的方法。而就在昨天，Hugging Face发布了一个新的语句transformers（Sentence Transformers）框架，可以针对少量标记数据进行模型微调以获取很好的效果。

SetFit在很少标记的数据训练中也获得了十分好的性能。例如，在用户评论情感分类数据中，在每一种情感分类的类别下仅仅标注8个实例，也让SetFit获得了很高的分类效果，比在3000个标注数据上进行微调的RoBERTa模型效果更好。RoBERTa是Yinhan Liu在2019年发布的一个模型，它以BERT架构为基础，但更改了超参数的选择使得模型可以在较少的资源下获得更好的性能。

<center>![](https://www.datalearner.com/resources/blog_images/7f29a45c-7972-4ba0-ab5c-13b2e47fbfae.png)</center>
<center></center>

与其他少量标记的学习方法相比，SetFit有几个独特的特点。

🗣 没有提示或口述者。目前的微调技术需要手工制作的提示语或口头语来将例子转换成适合底层语言模型的格式。SetFit通过直接从少量标记的文本例子中生成丰富的embedding，完全免除了提示。

🏎 快速训练。SetFit不需要像T0或GPT-3那样的大规模模型来实现高准确率。因此，它的训练和运行推理的速度通常要快一个数量级（或更多）。

🌎 多语言支持。SetFit可以与Hub上的任何Sentence Transformer一起使用，这意味着你可以通过简单地微调多语言checkpoint对文本进行分类。

SetFit的设计考虑到了效率和简单性。SetFit首先在少量已标记的例子（通常每类8或16个）上对Sentence Transformer模型进行微调。然后，在经过微调的Sentence Transformer产生的embeddings上训练分类器头。

<center>![](https://www.datalearner.com/resources/blog_images/5b9bacb2-55aa-48a5-9887-0d66d0b153b7.png)</center>
<center></center>

尽管SetFit比现有的few-shot模型小得多，但在各种基准上，SetFit的表现与最先进的few-shot模型相当或更好。在RAFT，一个少量分类基准上，SetFit Roberta（使用all-roberta-large-v1）以3.55亿个参数胜过PET和GPT-3。它略低于人类的平均表现和110亿参数的T-few--一个规模是SetFit Roberta的30倍的模型。SetFit在11个RAFT任务中的7个任务上也优于人类基线。

| Rank  |  Method | Accuracy  |  Model Size |
| ------------ | ------------ | ------------ | ------------ |
| 2  | T-Few  | 75.8    | 110亿
| 4 | Human Baseline  | 73.5  | N/A
| 6|  SetFit (Roberta Large) | 71.3   | 3.55亿
| 9 | PET  | 69.6  | 2.35亿
| 11 | SetFit (MP-Net)   |  66.9  |   1.1亿
| 12 | GPT-3 |  62.7 | 1750亿

在其他数据集上，SetFit在各种任务中都显示出鲁棒性。如上图所示，在每类只有8个例子的情况下，它通常比PERFECT、ADAPET和微调的vanilla变换器更优秀。SetFit也取得了与T-Few 3B相当的结果，尽管它是无提示的，而且体积小27倍。

<center>![](https://www.datalearner.com/resources/blog_images/fe6b7601-fc2c-48d2-b689-49574c205194.png)</center>
<center></center>

由于SetFit以相对较小的模型实现了较高的准确率，因此它的训练速度非常快，而且成本更低。例如，在NVIDIA V100上训练SetFit，有8个标记的例子，只需要30秒，成本为0.025美元。相比之下，训练T-Few 3B需要NVIDIA A100，需要11分钟，同样的实验成本约为0.7美元--多了28倍。事实上，SetFit可以在单个GPU上运行，比如在Google Colab上发现的那些GPU，甚至可以在CPU上训练SetFit，只需几分钟就可以完成! 如上图所示，SetFit的速度提升是在模型性能相当的情况下实现的。在推理方面也取得了类似的收益，提炼SetFit模型可以带来123倍🤯的速度提升。

<center>![](https://www.datalearner.com/resources/blog_images/e9c669da-bdb8-4d4c-99c6-03bb1b80c47e.png)</center>
<center></center>

论文地址：https://arxiv.org/abs/2209.11055
代码地址：https://github.com/huggingface/setfit
数据和模型地址：https://huggingface.co/SetFit

HuggingFace发布few-shot神器SetFit

论文名：Efficient Few-Shot Learning Without Prompts

发布时间：2022-09

论文地址：https://arxiv.org/abs/2209.11055

代码地址：https://github.com/huggingface/setfit