加载中...

GLM-4.7

Name: GLM-4.7
Availability: InStock
Author: 智谱AI

发布时间: 2025-12-222,336

在线体验 GitHub Hugging Face Compare

模型参数

3580.0亿

上下文长度

200K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GLM-4.7

模型基本信息

推理过程

支持

思考模式

思考水平 · 关闭 (Off)思考水平 · 扩展 (Extended)

上下文长度

200K tokens

最大输出长度

132072 tokens

模型类型

暂无数据

发布时间

2025-12-22

模型文件大小

暂无数据

MoE架构

是

总参数 / 激活参数

3580.0 亿 / 320 亿

知识截止

暂无数据

GLM-4.7

开源和体验地址

代码开源状态

MIT License

预训练权重开源

MIT License- 免费商用授权

GitHub 源码

https://github.com/zai-org/GLM-4.5

Hugging Face

https://huggingface.co/zai-org/GLM-4.7

在线体验

https://chat.z.ai/

GLM-4.7

官方介绍与博客

官方论文

GLM-4.7: Advancing the Coding Capability

DataLearnerAI博客

暂无介绍博客

GLM-4.7

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.6	$2.2

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.11	--

GLM-4.7

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

default

85.70

30 / 161

MMLU Pro

default

84.30

27 / 114

HLE

default

42.80

54 / 115

HLE

default

24.80

54 / 115

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

default

84.90

8 / 104

SWE-bench Verified

default

73.80

29 / 92

SWE-Bench Pro - Public

default

40.60

13 / 17

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

default

95.70

24 / 108

AIME 2026

default

92.90

2 / 7

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

default

47.70

12 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench

default

87.40

4 / 36

Aider-Polyglot

default

52.10

22 / 26

Terminal Bench Hard

default

33.30

8 / 14

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

default

23 / 34

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

default

24 / 26

查看评测深度分析与其他模型对比

GLM-4.7

发布机构

智谱AI

查看发布机构详情

GLM-4.7

模型解读

2025-12-22，Z.ai / 智谱发布并提供了新一代旗舰模型 GLM-4.7（同时提供 API 与公开权重），定位非常明确：把“会写代码”往前推一步，变成“能把一个任务做完”。

这类升级我更愿意把它理解为：不是单点能力的涨分，而是让模型在 多轮协作、长程规划、工具调用、终端执行 这些真实链路里更稳——也就是你把它接进 Claude Code / Cline 这种 coding agent 以后，能不能少掉很多“中途跑偏”和“反复返工”。

1）它到底强化了什么：从“生成”走向“先想清楚再动手”

官方把 GLM-4.7 的核心卖点拆成几块：更强的编程、更好的“vibe coding”（前端/UI观感）、更强的工具使用，以及更强的复杂推理。

这里面最关键的，我觉得是它把“思考”做成了可控机制，而不是一句宣传口号：

Interleaved Thinking：每次回答/每次工具调用前都会先思考，偏向提升指令遵循与复杂任务稳定性。
Preserved Thinking：多轮任务里把思考块保留下来复用，减少“上一轮想过的这轮又重来一遍”导致的信息丢失和不一致。
Turn-level Thinking：同一会话里按“轮”控制是否开启思考——简单问题可以关掉省时延，难题再开。

如果你做过工程化落地，会很直观：coding agent 最大的坑往往不是“不会写”，而是没想清楚就开始改、改着改着忘了目标、工具用得不一致。GLM-4.7 这套思路就是冲着这个痛点去的。

2）规格与接口：200K 上下文 + 128K 输出，工具与结构化输出都给齐了

从 BigModel 文档看，GLM-4.7 是文本输入/文本输出模型，但把工程侧常用能力基本配齐：

上下文窗口 200K，最大输出 128K
支持 Function Call / 工具调用、结构化输出（JSON）、流式输出、上下文缓存，并且支持 MCP 去接外部工具与数据源

BigModel 的调用示例里也给了一个很直观的开关：thinking: { type: "enabled" }。

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \  -H "Content-Type: application/json" \  -H "Authorization: Bearer YOUR_API_KEY" \  -d '{    "model": "glm-4.7",    "messages": [{"role":"user","content":"给我一个可运行的最小Demo：xxx"}],    "thinking": {"type":"enabled"},    "max_tokens": 8192  }'

3）基准表现：重点看 coding agent 与工具使用这两类“链路型”指标

官方在技术博客/模型卡里给了很多对比表（包含推理、coding、agent 类基准）。如果只抓“和工程体验最相关”的几项，能大概看到它的发力方向：

SWE-bench Verified：73.8%（并强调相对 GLM-4.6 有提升）
Terminal Bench 2.0：41.0%（终端/多步执行类任务）
τ²-Bench：87.4（交互式工具调用/多轮工具链路）
BrowseComp（含上下文管理）：67.5（网页任务/检索浏览链路）
HLE（Humanity’s Last Exam，含工具）：42.8%（复杂推理 + 工具）

同一模型在不同文档里会出现略不同的分数（可能是设置/版本差异），但整体指向是一致的：工具使用 + 多轮执行 + coding agent 是 GLM-4.7 的主战场。

另外，媒体报道里还提到它在 Code Arena 盲测里“开源第一/国产第一”等说法，但这类信息缺少公开细节，我会把它当“热度信号”，不当作严肃结论。

4）“Vibe Coding / 审美提升”到底指什么：网页与幻灯片的默认质量更像“能直接用”

GLM-4.7 这次很罕见地把 UI 质量当成主卖点之一：官方直接说它会生成更干净、更现代的网页，幻灯片的布局与尺寸更准确。

BigModel 文档里也把它写得更“产品化”：前端视觉审美、PPT/海报版式遵循、留白与配色稳定性都在强调范围内。

如果你平时会用模型做 demo 页、后台管理台、或者给客户做方案 PPT，这类提升通常比“又多涨了 1 分”更有体感。

5）怎么用到手：在线体验、API、以及本地部署（公开权重）

官方给了三条路径：

在线：Z.ai Chat 可直接选 GLM-4.7 体验
API：Z.ai 平台与 BigModel 文档都提供接入方式；并提到可在部分第三方平台调用（例如 OpenRouter）
本地：模型权重在 Hugging Face 等平台公开；并给出 vLLM / SGLang / transformers 的部署指引

模型卡显示它是 358B 参数，许可证 MIT（这对“能不能放心用、怎么合规地用”很关键）。

6）价格与订阅：一个很现实的变量（而且目前还有“限时”策略）

BigModel 的价格页里，GLM-4.7 标注为旗舰模型之一，并给出了按 token 计费与“Limited-Time Free”的信息（页面摘要可见：输入/输出分别是 ¥4 / ¥16 这样的梯度标注）。

同时，BigModel 文档也在推 GLM Coding Plan：主打“20 元起包月”“适配多种主流 coding 工具”，并强调价格/用量优势。

如果你是个人开发者或小团队，这块反而是选型时绕不过去的部分：模型能力是一条线，成本与稳定性是另一条线，两条线要一起看。

7）我建议你怎么测它（比看榜单更靠谱）

如果你的目标是“写博客顺便给读者一个可操作的判断”，我会建议用三类任务快速定性：

真实 repo 的修 bug / 改功能：让它做多文件改动、跑测试、修 lint。看它会不会“改完就走”，还是能把任务闭环。
工具链路：给它一个需要浏览/检索/再总结的任务，看它工具调用是否稳定、是否会走回头路。
切换思考强度：同一任务分别用“不开思考 / 开思考 / 多轮保留思考”，看收益是否显著（如果收益明显，说明它的优势点确实在“长程任务的稳定性”上）。

8）一个小结：GLM-4.7 的信号是什么？

GLM-4.7 传达的信号很清晰：模型竞争不再只靠“更大、更强的通用对话”，而是更像在争夺一条具体链路——coding agent + 工具调用 + 端到端交付。

如果你平时的使用场景就是 Cursor/Cline/Claude Code 这一类，或者你在做“让模型帮你把事情做完”的系统（而不是让它写两段代码），那 GLM-4.7 值得第一时间拿来跑一轮自己的用例。

===============以下是旧信息，2025/12/23已发布===============

发布状态说明

截至目前的公开信息中，智谱 AI / BigModel 的官方“新品发布”公开列表尚未出现“GLM-4.7”的正式发布条目，因此该模型在本条目中按“未发布/传闻”状态收录（releaseStatus=1）。

目前关于“GLM-4.7”的信息主要来自社区讨论：在 r/LocalLLaMA 出现了以“GLM 4.7 is Coming?”为题的帖子，讨论点包括其命名是否意味着一次小版本迭代（而非全新架构大版本）、以及是否会在年末时间点出现更新等。由于上述信息并非官方公告或技术报告，本条目不对其架构、参数规模、上下文长度、评测分数与定价策略作无来源断言；相关字段在缺乏权威来源时保持为空或 0。

与已公开版本的关系

智谱在 2025-09-30 发布了 GLM-4.6 的官方介绍，强调了更长上下文窗口、编码与推理能力改进、以及面向 agent 场景的增强等。若 GLM-4.7 后续正式发布，建议优先以官方发布页、技术报告、API 文档为准，补齐其明确的规格、评测与访问方式，并同步更新本条目。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

GLM-4.7

发布时间: 2025-12-222,336

在线体验 GitHub Hugging Face Compare

模型参数

3580.0亿

上下文长度

200K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GLM-4.7

模型基本信息

推理过程

支持

思考模式

思考水平 · 关闭 (Off)思考水平 · 扩展 (Extended)

上下文长度

200K tokens

最大输出长度

132072 tokens

模型类型

暂无数据

发布时间

2025-12-22

模型文件大小

暂无数据

MoE架构

是

总参数 / 激活参数

3580.0 亿 / 320 亿

知识截止

暂无数据

GLM-4.7

开源和体验地址

代码开源状态

MIT License

预训练权重开源

MIT License- 免费商用授权

GitHub 源码

https://github.com/zai-org/GLM-4.5

Hugging Face

https://huggingface.co/zai-org/GLM-4.7

在线体验

https://chat.z.ai/

GLM-4.7

官方介绍与博客

官方论文

GLM-4.7: Advancing the Coding Capability

DataLearnerAI博客

暂无介绍博客

GLM-4.7

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.6	$2.2

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.11	--

GLM-4.7

评测结果

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

default

85.70

30 / 161

MMLU Pro

default

84.30

27 / 114

HLE

default

42.80

54 / 115

HLE

default

24.80

54 / 115

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

default

84.90

8 / 104

SWE-bench Verified

default

73.80

29 / 92

SWE-Bench Pro - Public

default

40.60

13 / 17

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

default

95.70

24 / 108

AIME 2026

default

92.90

2 / 7

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

default

47.70

12 / 27

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench

default

87.40

4 / 36

Aider-Polyglot

default

52.10

22 / 26

Terminal Bench Hard

default

33.30

8 / 14

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

default

23 / 34

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

default

24 / 26

查看评测深度分析与其他模型对比

GLM-4.7

发布机构

智谱AI

查看发布机构详情

GLM-4.7

模型解读

1）它到底强化了什么：从“生成”走向“先想清楚再动手”

官方把 GLM-4.7 的核心卖点拆成几块：更强的编程、更好的“vibe coding”（前端/UI观感）、更强的工具使用，以及更强的复杂推理。

这里面最关键的，我觉得是它把“思考”做成了可控机制，而不是一句宣传口号：

Interleaved Thinking：每次回答/每次工具调用前都会先思考，偏向提升指令遵循与复杂任务稳定性。
Preserved Thinking：多轮任务里把思考块保留下来复用，减少“上一轮想过的这轮又重来一遍”导致的信息丢失和不一致。
Turn-level Thinking：同一会话里按“轮”控制是否开启思考——简单问题可以关掉省时延，难题再开。

2）规格与接口：200K 上下文 + 128K 输出，工具与结构化输出都给齐了

从 BigModel 文档看，GLM-4.7 是文本输入/文本输出模型，但把工程侧常用能力基本配齐：

上下文窗口 200K，最大输出 128K
支持 Function Call / 工具调用、结构化输出（JSON）、流式输出、上下文缓存，并且支持 MCP 去接外部工具与数据源

BigModel 的调用示例里也给了一个很直观的开关：thinking: { type: "enabled" }。

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \  -H "Content-Type: application/json" \  -H "Authorization: Bearer YOUR_API_KEY" \  -d '{    "model": "glm-4.7",    "messages": [{"role":"user","content":"给我一个可运行的最小Demo：xxx"}],    "thinking": {"type":"enabled"},    "max_tokens": 8192  }'

3）基准表现：重点看 coding agent 与工具使用这两类“链路型”指标

官方在技术博客/模型卡里给了很多对比表（包含推理、coding、agent 类基准）。如果只抓“和工程体验最相关”的几项，能大概看到它的发力方向：

SWE-bench Verified：73.8%（并强调相对 GLM-4.6 有提升）
Terminal Bench 2.0：41.0%（终端/多步执行类任务）
τ²-Bench：87.4（交互式工具调用/多轮工具链路）
BrowseComp（含上下文管理）：67.5（网页任务/检索浏览链路）
HLE（Humanity’s Last Exam，含工具）：42.8%（复杂推理 + 工具）

同一模型在不同文档里会出现略不同的分数（可能是设置/版本差异），但整体指向是一致的：工具使用 + 多轮执行 + coding agent 是 GLM-4.7 的主战场。

另外，媒体报道里还提到它在 Code Arena 盲测里“开源第一/国产第一”等说法，但这类信息缺少公开细节，我会把它当“热度信号”，不当作严肃结论。

4）“Vibe Coding / 审美提升”到底指什么：网页与幻灯片的默认质量更像“能直接用”

GLM-4.7 这次很罕见地把 UI 质量当成主卖点之一：官方直接说它会生成更干净、更现代的网页，幻灯片的布局与尺寸更准确。

BigModel 文档里也把它写得更“产品化”：前端视觉审美、PPT/海报版式遵循、留白与配色稳定性都在强调范围内。

如果你平时会用模型做 demo 页、后台管理台、或者给客户做方案 PPT，这类提升通常比“又多涨了 1 分”更有体感。

5）怎么用到手：在线体验、API、以及本地部署（公开权重）

官方给了三条路径：

在线：Z.ai Chat 可直接选 GLM-4.7 体验
API：Z.ai 平台与 BigModel 文档都提供接入方式；并提到可在部分第三方平台调用（例如 OpenRouter）
本地：模型权重在 Hugging Face 等平台公开；并给出 vLLM / SGLang / transformers 的部署指引

模型卡显示它是 358B 参数，许可证 MIT（这对“能不能放心用、怎么合规地用”很关键）。

6）价格与订阅：一个很现实的变量（而且目前还有“限时”策略）

同时，BigModel 文档也在推 GLM Coding Plan：主打“20 元起包月”“适配多种主流 coding 工具”，并强调价格/用量优势。

如果你是个人开发者或小团队，这块反而是选型时绕不过去的部分：模型能力是一条线，成本与稳定性是另一条线，两条线要一起看。

7）我建议你怎么测它（比看榜单更靠谱）

如果你的目标是“写博客顺便给读者一个可操作的判断”，我会建议用三类任务快速定性：

真实 repo 的修 bug / 改功能：让它做多文件改动、跑测试、修 lint。看它会不会“改完就走”，还是能把任务闭环。
工具链路：给它一个需要浏览/检索/再总结的任务，看它工具调用是否稳定、是否会走回头路。
切换思考强度：同一任务分别用“不开思考 / 开思考 / 多轮保留思考”，看收益是否显著（如果收益明显，说明它的优势点确实在“长程任务的稳定性”上）。

8）一个小结：GLM-4.7 的信号是什么？

GLM-4.7 传达的信号很清晰：模型竞争不再只靠“更大、更强的通用对话”，而是更像在争夺一条具体链路——coding agent + 工具调用 + 端到端交付。

===============以下是旧信息，2025/12/23已发布===============

发布状态说明

与已公开版本的关系

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送