近期有讨论指出，自建小型语言模型(LLMs)的成本可能远低于运行GPT-4的成本。本文将深入探讨这一观点，分析其成本构成，并讨论在特定任务下，选择自建模型的可能优势和劣势。

二、成本对比

首先，我们假设你使用的是一个完整的上下文窗口。对于GPT-4，每1000个令牌的成本大约为0.30美元（8192个上下文窗口的提示令牌为0.03美元/1000个，补全令牌为0.06美元/1000个）。

自建模型的主要成本在于GPU服务器。假设你使用的是每小时2美元的LambdaAPI H100服务器。我曾测试过vLLM与Falcon-7B的性能，全上下文窗口在4090上大约为44.1令牌/秒。H100的速度会更快，但我们使用这个数字。这意味着每小时158,760个令牌，成本为(2/小时) / (158,760个令牌/小时) = ~0.013/1000个令牌。即使在我设置的10%效率下，你的成本也只有GPT-4的约30%。

三、优势和劣势

如果你有一个可以对Mistral-7B等模型进行微调的狭窄任务，你应该强烈考虑这条路线。但是，这种方法也有其缺点：按使用付费在扩展时可能更有效；我测试的模型只有2k的上下文窗口，但它也不是我测试过的最高效的。像Mistral这样的模型可能会超过其成本/令牌的性能；部分成本节省可能会被维护成本抵消。

四、结论

总的来说，自建小型语言模型在成本上可能具有优势，特别是在特定任务下，自建模型可能更具成本效益。然而，这也取决于具体的任务需求和资源配置，因此在实际决策时需要综合考虑各种因素。