DeepInfra介绍及其成果简介

DeepInfra 成立于 2023 年，总部位于美国加利福尼亚州 Palo Alto。公司由 Nikola Borisov 担任 CEO 和联合创始人。公司提供云端 AI 推理平台，通过服务器less API 托管开源机器学习模型，支持文本生成、语音处理、文档理解等多种任务。

公司于 2023 年 11 月完成 800 万美元种子轮融资，由 A.Capital 和 Felicis 领投。2025 年 4 月完成 1800 万美元 A 轮融资，由 Felicis 领投，Georges Harik 参与。公司基础设施位于美国数据中心，通过 SOC 2 和 ISO 27001 认证，实施零数据保留政策。

公司支持自定义模型部署到其基础设施上，还提供按需 GPU 实例租赁，如 DGX B200。

核心服务与产品

DeepInfra 的平台提供超过 100 个开源模型的推理服务，支持以下任务类别：

文本生成
文本到语音
语音识别
OCR 与文档处理
嵌入模型
文本到图像（部分支持）

平台运行在美国数据中心，支持长上下文窗口、多种量化格式（如 fp4、fp8、bfloat16），并提供实时性能指标，包括 token 生成速度、首 token 时间和请求处理量。

用户可以通过 API 访问托管模型，或部署自定义模型。公司还支持 Gemini 系列模型的 API 访问。

可用模型类别与示例

文本生成模型

deepseek-ai/DeepSeek-V3.2（fp4 量化，160k 上下文窗口，支持稀疏注意力机制）
deepseek-ai/DeepSeek-V3.1（fp4 量化，160k 上下文窗口，支持思考模式和非思考模式）
deepseek-ai/DeepSeek-V3.1-Terminus（fp4 量化，160k 上下文窗口，支持结构化工具调用和代码代理）
Qwen/Qwen3-Next（fp8 量化，256k 上下文窗口）
Qwen/Qwen3-Coder-480B-A35B-Instruct-Turbo（fp4 量化，256k 上下文窗口，支持代理编码任务）
nvidia/Nemotron-3-Nano-30B-A3B（bfloat16 量化，256k 上下文窗口，混合 MoE 和 Mamba 架构）
MiniMaxAI/MiniMax-M2（fp8 量化，256k 上下文窗口，10B 激活参数）
moonshotai/Kimi-K2-Instruct-0905（fp4 量化，128k 上下文窗口，1T 参数 MoE 模型）
openai/gpt-oss-120b（fp4 量化，128k 上下文窗口，支持原生工具调用）
openai/gpt-oss-20b（fp4 量化，128k 上下文窗口，支持低延迟推理）

文本到语音模型

ResembleAI/chatterbox-turbo（350M 参数，支持类语言标签如 [cough]、[laugh]，适用于低延迟语音代理）

语音识别模型

mistralai/Voxtral-Small-24B-2507（bf16 量化，32k 上下文窗口，支持转录和翻译）
mistralai/Voxtral-Mini-3B-2507（bf16 量化，32k 上下文窗口，支持转录和翻译）

OCR 与文档处理模型
以下模型集成在文本生成类别中，用于文档理解任务：

deepseek-ai/DeepSeek-OCR（bfloat16 量化，8k 上下文窗口，支持高压缩比 OCR）
allenai/olmOCR-2-7B-1025（fp8 量化，16k 上下文窗口，支持复杂 PDF 结构化转换）
PaddlePaddle/PaddleOCR-VL-0.9B（bfloat16 量化，16k 上下文窗口，支持 109 种语言的文本、表格、公式识别）

模型支持特征汇总

类别示例模型数量常见上下文窗口量化选项主要任务

文本生成超过 20 个32k–256kfp4, fp8, bfloat16推理、编码、工具调用

文本到语音1 个不适用不适用低延迟语音生成

语音识别2 个32kbf16转录、翻译、音频理解

OCR/文档处理3 个8k–16kfp8, bfloat16PDF 解析、表格提取、多语言支持

DeepInfra

机构介绍

核心服务与产品

可用模型类别与示例

模型支持特征汇总

发布的大模型