让大语言模型为文本处理提提速：Scikit-learn与LLM的合体Scikit-LLM开源项目发布

尽管大语言模型（Large Language Models，LLMs）的发展让很多做NLP研究的童鞋感觉到前途一片黯淡，但是它对于工程应用的人来说却是一个福音。

不过，虽然LLM在很多任务上很好用，但是实际应用中我们常见的文本分类、文本标注等工作目前却依然缺少一个可以利用LLM能力的好方法。LLM的强大并没有在工程落地上比肩传统的机器学习处理框架。上周，一个叫Scikit-LLM新的开源项目发布，将传统优秀的Scikit-learn框架与LLM结合，带来了LLM落地的新方法。

简单来说，如果希望把LLMs的能力带到Scikit-learn的工程流程上，需要将scikit-learn那一套pipeline转变成对LLM的prompts才可以。例如，正常情况我们可能用model.fit(X,y)来训练一个分类模型，但是如果用这种方法使用LLM，显然不是传统领域的fit（一般可能是利用求解算法求解模型参数）方式，而是将X与y的对应关系转成prompts，发送给大模型。我们也可以自己这样做，但是显然很难与传统的scikit-learn的pipeline结合。Scikit-LLM就是解决这个问题的。