GL

GLM-4.7

GLM-4.7

发布时间: 2025-12-221,361
模型参数
3580.0亿
上下文长度
200K
中文支持
支持
推理能力

模型基本信息

推理过程
支持
上下文长度
200K tokens
最大输出长度
132072 tokens
模型类型
暂无数据
发布时间
2025-12-22
模型文件大小
暂无数据
MoE架构
总参数 / 激活参数
3580.0 亿 / 320 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
MIT License- 免费商用授权
在线体验

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$0.6$2.2
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.11--

评测得分

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamondthinking
85.70
15 / 141
MMLU Prothinking
84.30
23 / 109
HLEthinking + 使用工具
42.80
8 / 83
HLEthinking
24.80
26 / 83

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
84.90
5 / 99
SWE-bench Verifiedthinking + 使用工具
73.80
15 / 74

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
AIME2025thinking
95.70
19 / 101

Agent能力评测

共 2 项评测
评测名称 / 模式
得分
排名/总数
τ²-Benchthinking + 使用工具
87.40
2 / 30
Terminal Bench Hardthinking + 使用工具
33.30
4 / 7

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseCompthinking + 使用工具
52
6 / 15

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0thinking + 使用工具
41
8 / 9

发布机构

模型解读

2025-12-22,Z.ai / 智谱发布并提供了新一代旗舰模型 GLM-4.7(同时提供 API 与公开权重),定位非常明确:把“会写代码”往前推一步,变成“能把一个任务做完”。

这类升级我更愿意把它理解为:不是单点能力的涨分,而是让模型在 多轮协作、长程规划、工具调用、终端执行 这些真实链路里更稳——也就是你把它接进 Claude Code / Cline 这种 coding agent 以后,能不能少掉很多“中途跑偏”和“反复返工”。


1)它到底强化了什么:从“生成”走向“先想清楚再动手”

官方把 GLM-4.7 的核心卖点拆成几块:更强的编程、更好的“vibe coding”(前端/UI观感)、更强的工具使用,以及更强的复杂推理。

这里面最关键的,我觉得是它把“思考”做成了可控机制,而不是一句宣传口号:

  • Interleaved Thinking:每次回答/每次工具调用前都会先思考,偏向提升指令遵循与复杂任务稳定性。
  • Preserved Thinking:多轮任务里把思考块保留下来复用,减少“上一轮想过的这轮又重来一遍”导致的信息丢失和不一致。
  • Turn-level Thinking:同一会话里按“轮”控制是否开启思考——简单问题可以关掉省时延,难题再开。

如果你做过工程化落地,会很直观:coding agent 最大的坑往往不是“不会写”,而是没想清楚就开始改、改着改着忘了目标、工具用得不一致。GLM-4.7 这套思路就是冲着这个痛点去的。


2)规格与接口:200K 上下文 + 128K 输出,工具与结构化输出都给齐了

从 BigModel 文档看,GLM-4.7 是文本输入/文本输出模型,但把工程侧常用能力基本配齐:

  • 上下文窗口 200K,最大输出 128K
  • 支持 Function Call / 工具调用、结构化输出(JSON)、流式输出、上下文缓存,并且支持 MCP 去接外部工具与数据源

BigModel 的调用示例里也给了一个很直观的开关:thinking: { type: "enabled" }

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \  -H "Content-Type: application/json" \  -H "Authorization: Bearer YOUR_API_KEY" \  -d '{    "model": "glm-4.7",    "messages": [{"role":"user","content":"给我一个可运行的最小Demo:xxx"}],    "thinking": {"type":"enabled"},    "max_tokens": 8192  }'

3)基准表现:重点看 coding agent 与工具使用这两类“链路型”指标

官方在技术博客/模型卡里给了很多对比表(包含推理、coding、agent 类基准)。如果只抓“和工程体验最相关”的几项,能大概看到它的发力方向:

  • SWE-bench Verified:73.8%(并强调相对 GLM-4.6 有提升)
  • Terminal Bench 2.0:41.0%(终端/多步执行类任务)
  • τ²-Bench:87.4(交互式工具调用/多轮工具链路)
  • BrowseComp(含上下文管理):67.5(网页任务/检索浏览链路)
  • HLE(Humanity’s Last Exam,含工具):42.8%(复杂推理 + 工具)

同一模型在不同文档里会出现略不同的分数(可能是设置/版本差异),但整体指向是一致的:工具使用 + 多轮执行 + coding agent 是 GLM-4.7 的主战场。

另外,媒体报道里还提到它在 Code Arena 盲测里“开源第一/国产第一”等说法,但这类信息缺少公开细节,我会把它当“热度信号”,不当作严肃结论。


4)“Vibe Coding / 审美提升”到底指什么:网页与幻灯片的默认质量更像“能直接用”

GLM-4.7 这次很罕见地把 UI 质量当成主卖点之一:官方直接说它会生成更干净、更现代的网页,幻灯片的布局与尺寸更准确。

BigModel 文档里也把它写得更“产品化”:前端视觉审美、PPT/海报版式遵循、留白与配色稳定性都在强调范围内。

如果你平时会用模型做 demo 页、后台管理台、或者给客户做方案 PPT,这类提升通常比“又多涨了 1 分”更有体感。


5)怎么用到手:在线体验、API、以及本地部署(公开权重)

官方给了三条路径:

  • 在线:Z.ai Chat 可直接选 GLM-4.7 体验
  • API:Z.ai 平台与 BigModel 文档都提供接入方式;并提到可在部分第三方平台调用(例如 OpenRouter)
  • 本地:模型权重在 Hugging Face 等平台公开;并给出 vLLM / SGLang / transformers 的部署指引

模型卡显示它是 358B 参数,许可证 MIT(这对“能不能放心用、怎么合规地用”很关键)。


6)价格与订阅:一个很现实的变量(而且目前还有“限时”策略)

BigModel 的价格页里,GLM-4.7 标注为旗舰模型之一,并给出了按 token 计费与“Limited-Time Free”的信息(页面摘要可见:输入/输出分别是 ¥4 / ¥16 这样的梯度标注)。

同时,BigModel 文档也在推 GLM Coding Plan:主打“20 元起包月”“适配多种主流 coding 工具”,并强调价格/用量优势。

如果你是个人开发者或小团队,这块反而是选型时绕不过去的部分:模型能力是一条线,成本与稳定性是另一条线,两条线要一起看。


7)我建议你怎么测它(比看榜单更靠谱)

如果你的目标是“写博客顺便给读者一个可操作的判断”,我会建议用三类任务快速定性:

  1. 真实 repo 的修 bug / 改功能:让它做多文件改动、跑测试、修 lint。看它会不会“改完就走”,还是能把任务闭环。
  2. 工具链路:给它一个需要浏览/检索/再总结的任务,看它工具调用是否稳定、是否会走回头路。
  3. 切换思考强度:同一任务分别用“不开思考 / 开思考 / 多轮保留思考”,看收益是否显著(如果收益明显,说明它的优势点确实在“长程任务的稳定性”上)。

8)一个小结:GLM-4.7 的信号是什么?

GLM-4.7 传达的信号很清晰:模型竞争不再只靠“更大、更强的通用对话”,而是更像在争夺一条具体链路——coding agent + 工具调用 + 端到端交付

如果你平时的使用场景就是 Cursor/Cline/Claude Code 这一类,或者你在做“让模型帮你把事情做完”的系统(而不是让它写两段代码),那 GLM-4.7 值得第一时间拿来跑一轮自己的用例。





===============以下是旧信息,2025/12/23已发布===============

发布状态说明

截至目前的公开信息中,智谱 AI / BigModel 的官方“新品发布”公开列表尚未出现“GLM-4.7”的正式发布条目,因此该模型在本条目中按“未发布/传闻”状态收录(releaseStatus=1)。

目前关于“GLM-4.7”的信息主要来自社区讨论:在 r/LocalLLaMA 出现了以“GLM 4.7 is Coming?”为题的帖子,讨论点包括其命名是否意味着一次小版本迭代(而非全新架构大版本)、以及是否会在年末时间点出现更新等。由于上述信息并非官方公告或技术报告,本条目不对其架构、参数规模、上下文长度、评测分数与定价策略作无来源断言;相关字段在缺乏权威来源时保持为空或 0。

与已公开版本的关系

智谱在 2025-09-30 发布了 GLM-4.6 的官方介绍,强调了更长上下文窗口、编码与推理能力改进、以及面向 agent 场景的增强等。若 GLM-4.7 后续正式发布,建议优先以官方发布页、技术报告、API 文档为准,补齐其明确的规格、评测与访问方式,并同步更新本条目。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码