DeepInfra

DeepInfra

机构简介与发布的大模型

deepinfra.com

机构介绍

DeepInfra 成立于 2023 年,总部位于美国加利福尼亚州 Palo Alto。公司由 Nikola Borisov 担任 CEO 和联合创始人。公司提供云端 AI 推理平台,通过服务器less API 托管开源机器学习模型,支持文本生成、语音处理、文档理解等多种任务。

公司于 2023 年 11 月完成 800 万美元种子轮融资,由 A.Capital 和 Felicis 领投。2025 年 4 月完成 1800 万美元 A 轮融资,由 Felicis 领投,Georges Harik 参与。公司基础设施位于美国数据中心,通过 SOC 2 和 ISO 27001 认证,实施零数据保留政策。

公司支持自定义模型部署到其基础设施上,还提供按需 GPU 实例租赁,如 DGX B200。

核心服务与产品

DeepInfra 的平台提供超过 100 个开源模型的推理服务,支持以下任务类别:

  • 文本生成
  • 文本到语音
  • 语音识别
  • OCR 与文档处理
  • 嵌入模型
  • 文本到图像(部分支持)

平台运行在美国数据中心,支持长上下文窗口、多种量化格式(如 fp4、fp8、bfloat16),并提供实时性能指标,包括 token 生成速度、首 token 时间和请求处理量。

用户可以通过 API 访问托管模型,或部署自定义模型。公司还支持 Gemini 系列模型的 API 访问。

可用模型类别与示例

文本生成模型

  • deepseek-ai/DeepSeek-V3.2(fp4 量化,160k 上下文窗口,支持稀疏注意力机制)
  • deepseek-ai/DeepSeek-V3.1(fp4 量化,160k 上下文窗口,支持思考模式和非思考模式)
  • deepseek-ai/DeepSeek-V3.1-Terminus(fp4 量化,160k 上下文窗口,支持结构化工具调用和代码代理)
  • Qwen/Qwen3-Next(fp8 量化,256k 上下文窗口)
  • Qwen/Qwen3-Coder-480B-A35B-Instruct-Turbo(fp4 量化,256k 上下文窗口,支持代理编码任务)
  • nvidia/Nemotron-3-Nano-30B-A3B(bfloat16 量化,256k 上下文窗口,混合 MoE 和 Mamba 架构)
  • MiniMaxAI/MiniMax-M2(fp8 量化,256k 上下文窗口,10B 激活参数)
  • moonshotai/Kimi-K2-Instruct-0905(fp4 量化,128k 上下文窗口,1T 参数 MoE 模型)
  • openai/gpt-oss-120b(fp4 量化,128k 上下文窗口,支持原生工具调用)
  • openai/gpt-oss-20b(fp4 量化,128k 上下文窗口,支持低延迟推理)

文本到语音模型

  • ResembleAI/chatterbox-turbo(350M 参数,支持类语言标签如 [cough]、[laugh],适用于低延迟语音代理)

语音识别模型

  • mistralai/Voxtral-Small-24B-2507(bf16 量化,32k 上下文窗口,支持转录和翻译)
  • mistralai/Voxtral-Mini-3B-2507(bf16 量化,32k 上下文窗口,支持转录和翻译)

OCR 与文档处理模型
以下模型集成在文本生成类别中,用于文档理解任务:

  • deepseek-ai/DeepSeek-OCR(bfloat16 量化,8k 上下文窗口,支持高压缩比 OCR)
  • allenai/olmOCR-2-7B-1025(fp8 量化,16k 上下文窗口,支持复杂 PDF 结构化转换)
  • PaddlePaddle/PaddleOCR-VL-0.9B(bfloat16 量化,16k 上下文窗口,支持 109 种语言的文本、表格、公式识别)

模型支持特征汇总

类别示例模型数量常见上下文窗口量化选项主要任务

文本生成超过 20 个32k–256kfp4, fp8, bfloat16推理、编码、工具调用

文本到语音1 个不适用不适用低延迟语音生成

语音识别2 个32kbf16转录、翻译、音频理解

OCR/文档处理3 个8k–16kfp8, bfloat16PDF 解析、表格提取、多语言支持

发布的大模型

暂无大模型数据