
机构介绍
DeepInfra 成立于 2023 年,总部位于美国加利福尼亚州 Palo Alto。公司由 Nikola Borisov 担任 CEO 和联合创始人。公司提供云端 AI 推理平台,通过服务器less API 托管开源机器学习模型,支持文本生成、语音处理、文档理解等多种任务。
公司于 2023 年 11 月完成 800 万美元种子轮融资,由 A.Capital 和 Felicis 领投。2025 年 4 月完成 1800 万美元 A 轮融资,由 Felicis 领投,Georges Harik 参与。公司基础设施位于美国数据中心,通过 SOC 2 和 ISO 27001 认证,实施零数据保留政策。
公司支持自定义模型部署到其基础设施上,还提供按需 GPU 实例租赁,如 DGX B200。
核心服务与产品
DeepInfra 的平台提供超过 100 个开源模型的推理服务,支持以下任务类别:
- 文本生成
- 文本到语音
- 语音识别
- OCR 与文档处理
- 嵌入模型
- 文本到图像(部分支持)
平台运行在美国数据中心,支持长上下文窗口、多种量化格式(如 fp4、fp8、bfloat16),并提供实时性能指标,包括 token 生成速度、首 token 时间和请求处理量。
用户可以通过 API 访问托管模型,或部署自定义模型。公司还支持 Gemini 系列模型的 API 访问。
可用模型类别与示例
文本生成模型
- deepseek-ai/DeepSeek-V3.2(fp4 量化,160k 上下文窗口,支持稀疏注意力机制)
- deepseek-ai/DeepSeek-V3.1(fp4 量化,160k 上下文窗口,支持思考模式和非思考模式)
- deepseek-ai/DeepSeek-V3.1-Terminus(fp4 量化,160k 上下文窗口,支持结构化工具调用和代码代理)
- Qwen/Qwen3-Next(fp8 量化,256k 上下文窗口)
- Qwen/Qwen3-Coder-480B-A35B-Instruct-Turbo(fp4 量化,256k 上下文窗口,支持代理编码任务)
- nvidia/Nemotron-3-Nano-30B-A3B(bfloat16 量化,256k 上下文窗口,混合 MoE 和 Mamba 架构)
- MiniMaxAI/MiniMax-M2(fp8 量化,256k 上下文窗口,10B 激活参数)
- moonshotai/Kimi-K2-Instruct-0905(fp4 量化,128k 上下文窗口,1T 参数 MoE 模型)
- openai/gpt-oss-120b(fp4 量化,128k 上下文窗口,支持原生工具调用)
- openai/gpt-oss-20b(fp4 量化,128k 上下文窗口,支持低延迟推理)
文本到语音模型
- ResembleAI/chatterbox-turbo(350M 参数,支持类语言标签如 [cough]、[laugh],适用于低延迟语音代理)
语音识别模型
- mistralai/Voxtral-Small-24B-2507(bf16 量化,32k 上下文窗口,支持转录和翻译)
- mistralai/Voxtral-Mini-3B-2507(bf16 量化,32k 上下文窗口,支持转录和翻译)
OCR 与文档处理模型
以下模型集成在文本生成类别中,用于文档理解任务:
- deepseek-ai/DeepSeek-OCR(bfloat16 量化,8k 上下文窗口,支持高压缩比 OCR)
- allenai/olmOCR-2-7B-1025(fp8 量化,16k 上下文窗口,支持复杂 PDF 结构化转换)
- PaddlePaddle/PaddleOCR-VL-0.9B(bfloat16 量化,16k 上下文窗口,支持 109 种语言的文本、表格、公式识别)
模型支持特征汇总
类别示例模型数量常见上下文窗口量化选项主要任务
文本生成超过 20 个32k–256kfp4, fp8, bfloat16推理、编码、工具调用
文本到语音1 个不适用不适用低延迟语音生成
语音识别2 个32kbf16转录、翻译、音频理解
OCR/文档处理3 个8k–16kfp8, bfloat16PDF 解析、表格提取、多语言支持
发布的大模型
暂无大模型数据