Grok 4.1 Fast

Benchmark Results

Grok 4.1 Fast currently shows benchmark results led by MMLU Pro (19 / 118, score 85), LiveCodeBench (19 / 112, score 82), GPQA Diamond (42 / 169, score 85). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.

综合评估

4 evaluations

Benchmark / mode

Score

Rank/total

MMLU Pro

Thinking Mode

19 / 118

GPQA Diamond

Thinking Mode

42 / 169

LiveBench

Thinking Mode

50 / 52

HLE

Thinking Mode

17.60

95 / 136

编程与软件工程

1 evaluations

Benchmark / mode

Score

Rank/total

LiveCodeBench

Thinking Mode

19 / 112

数学推理

1 evaluations

Benchmark / mode

Score

Rank/total

AIME2025

Thinking Mode

40 / 106

AI Agent - 工具使用

1 evaluations

Benchmark / mode

Score

Rank/total

Terminal-Bench

Thinking ModeTools

30 / 35

Agent能力评测

2 evaluations

Benchmark / mode

Score

Rank/total

τ²-Bench - Telecom

Thinking ModeTools

94.74

15 / 35

τ²-Bench

Thinking ModeTools

82.71

10 / 40

指令跟随

1 evaluations

Benchmark / mode

Score

Rank/total

IF Bench

Thinking ModeTools

25 / 27

OpenClaw智能体能力综合测评

2 evaluations

Benchmark / mode

Score

Rank/total

Claw Bench

Thinking ModeTools

88.60

12 / 29

Pinch Bench

Thinking ModeTools

82.40

20 / 37

View benchmark analysis Compare with other models

Grok 4.1 Fast

Model Overview

模型概览

Grok 4.1 Fast 是 xAI 发布的面向高性能工具调用与 Agent 工作流的前沿模型，提供最长 2,000,000 tokens 的上下文窗口，并与全新的 Agent Tools API 配合用于实时 X 数据检索、网页搜索与远程代码执行等场景。该版本同时提供 reasoning 与 non-reasoning 两种形态，用于在智能强度与响应时延之间进行权衡。

主要官方信息来源：xAI 新闻稿、xAI 模型文档。

架构与技术要点

官方未披露参数规模与架构细节（如是否为 MoE）。该模型通过在模拟环境中的强化学习进行长期、多回合的工具使用训练，强调长程规划与多轮调用一致性，以确保在 2M tokens 的长上下文下仍保持稳定表现。

上下文窗口：2,000,000 tokens（新闻页与文档均明确）。
训练与优化：在包含多领域工具的模拟环境中进行强化学习，侧重多轮与长程任务。

核心能力与模态

工具与代理能力：原生函数调用/工具调用；可接入 Agent Tools API 实现实时 X 数据搜索、Web 浏览、代码执行、文件检索与 MCP 连接等。
推理模式：提供 reasoning 与 non-reasoning 两种模式；前者用于更高的智能与任务完成质量，后者用于更低时延的即时响应。
图像理解：xAI 文档提供图像理解指南，Grok 4.1 Fast 与同系列模型共用接口以支持图像输入；未提供与文本不同的单独计费项。

性能与评测

τ²-bench Telecom（工具使用）：在电信客服类真实世界工具使用场景中表现突出（官方页展示评分与成本对比，并注明由第三方 Artificial Analysis 验证）。
Berkeley Function Calling v4：官方页列出总体准确率示例与成本对比，用于体现该模型在函数调用上的稳定性与成本效率。
长上下文多轮一致性：官方强调在多轮与长上下文场景下的性能稳定，不随上下文扩大而显著退化。

使用方式与定价

API 访问：xAI API 直接提供 grok-4-1-fast-reasoning 与 grok-4-1-fast-non-reasoning 两个变体；并在部分平台（如 OpenRouter）提供试用入口。
计费（按 tokens）：输入 $0.20 / 1M tokens、缓存命中输入 $0.05 / 1M tokens、输出 $0.50 / 1M tokens；Live Search 单独计价为 $25 / 1K sources；部分工具调用按成功调用次数计价（起价 $5 / 1000 次）。若超 128K 上下文存在“高上下文定价”，但未公布具体数值。

限制与未披露信息

未公开参数量与（若为 MoE 时的）激活参数量。
未提供图像/音频/视频等模态的独立定价项，默认按 token 计费。

Grok 4.1 Fast

Model basics

Open source & experience

Official resources

API details

Benchmark Results

综合评估

编程与软件工程

数学推理

AI Agent - 工具使用

Agent能力评测

指令跟随

OpenClaw智能体能力综合测评

Publisher

Model Overview

模型概览

架构与技术要点

核心能力与模态

性能与评测

使用方式与定价

限制与未披露信息

DataLearner 官方微信