DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GLM-4.7
GL

GLM-4.7

GLM-4.7

发布时间: 2025-12-222,336
在线体验GitHubHugging FaceCompare
模型参数
3580.0亿
上下文长度
200K
中文支持
支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GLM-4.7

模型基本信息

推理过程
支持
思考模式
不思考 (Non-Thinking)扩展思考 (Extended Thinking)
上下文长度
200K tokens
最大输出长度
132072 tokens
模型类型
暂无数据
发布时间
2025-12-22
模型文件大小
暂无数据
MoE架构
是
总参数 / 激活参数
3580.0 亿 / 320 亿
知识截止
暂无数据
GLM-4.7

开源和体验地址

代码开源状态
MIT License
预训练权重开源
MIT License- 免费商用授权
GitHub 源码
https://github.com/zai-org/GLM-4.5
Hugging Face
https://huggingface.co/zai-org/GLM-4.7
在线体验
https://chat.z.ai/
GLM-4.7

官方介绍与博客

官方论文
GLM-4.7: Advancing the Coding Capability
DataLearnerAI博客
暂无介绍博客
GLM-4.7

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$0.6$2.2
缓存计费Cache
模态输入 Cache输出 Cache
文本$0.11--
GLM-4.7

评测结果

思考模式

综合评估

共 4 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
常规
85.70
30 / 161
MMLU Pro
常规
84.30
27 / 114
HLE
常规
42.80
54 / 115
HLE
常规
24.80
54 / 115

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
常规
84.90
8 / 104
SWE-bench Verified
常规
73.80
29 / 92
SWE-Bench Pro - Public
常规
40.60
13 / 17

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
常规
95.70
24 / 108
AIME 2026
常规
92.90
2 / 7

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规
47.70
12 / 27

Agent能力评测

共 3 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench
常规
87.40
4 / 36
Aider-Polyglot
常规
52.10
22 / 26
Terminal Bench Hard
常规
33.30
8 / 14

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
常规
52
23 / 34

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
常规
41
24 / 26
查看评测深度分析与其他模型对比
GLM-4.7

发布机构

智谱AI
智谱AI
查看发布机构详情
GLM-4.7

模型解读

2025-12-22,Z.ai / 智谱发布并提供了新一代旗舰模型 GLM-4.7(同时提供 API 与公开权重),定位非常明确:把“会写代码”往前推一步,变成“能把一个任务做完”。

这类升级我更愿意把它理解为:不是单点能力的涨分,而是让模型在 多轮协作、长程规划、工具调用、终端执行 这些真实链路里更稳——也就是你把它接进 Claude Code / Cline 这种 coding agent 以后,能不能少掉很多“中途跑偏”和“反复返工”。


1)它到底强化了什么:从“生成”走向“先想清楚再动手”

官方把 GLM-4.7 的核心卖点拆成几块:更强的编程、更好的“vibe coding”(前端/UI观感)、更强的工具使用,以及更强的复杂推理。

这里面最关键的,我觉得是它把“思考”做成了可控机制,而不是一句宣传口号:

  • Interleaved Thinking:每次回答/每次工具调用前都会先思考,偏向提升指令遵循与复杂任务稳定性。
  • Preserved Thinking:多轮任务里把思考块保留下来复用,减少“上一轮想过的这轮又重来一遍”导致的信息丢失和不一致。
  • Turn-level Thinking:同一会话里按“轮”控制是否开启思考——简单问题可以关掉省时延,难题再开。

如果你做过工程化落地,会很直观:coding agent 最大的坑往往不是“不会写”,而是没想清楚就开始改、改着改着忘了目标、工具用得不一致。GLM-4.7 这套思路就是冲着这个痛点去的。


2)规格与接口:200K 上下文 + 128K 输出,工具与结构化输出都给齐了

从 BigModel 文档看,GLM-4.7 是文本输入/文本输出模型,但把工程侧常用能力基本配齐:

  • 上下文窗口 200K,最大输出 128K
  • 支持 Function Call / 工具调用、结构化输出(JSON)、流式输出、上下文缓存,并且支持 MCP 去接外部工具与数据源

BigModel 的调用示例里也给了一个很直观的开关:thinking: { type: "enabled" }。

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \  -H "Content-Type: application/json" \  -H "Authorization: Bearer YOUR_API_KEY" \  -d '{    "model": "glm-4.7",    "messages": [{"role":"user","content":"给我一个可运行的最小Demo:xxx"}],    "thinking": {"type":"enabled"},    "max_tokens": 8192  }'

3)基准表现:重点看 coding agent 与工具使用这两类“链路型”指标

官方在技术博客/模型卡里给了很多对比表(包含推理、coding、agent 类基准)。如果只抓“和工程体验最相关”的几项,能大概看到它的发力方向:

  • SWE-bench Verified:73.8%(并强调相对 GLM-4.6 有提升)
  • Terminal Bench 2.0:41.0%(终端/多步执行类任务)
  • τ²-Bench:87.4(交互式工具调用/多轮工具链路)
  • BrowseComp(含上下文管理):67.5(网页任务/检索浏览链路)
  • HLE(Humanity’s Last Exam,含工具):42.8%(复杂推理 + 工具)

同一模型在不同文档里会出现略不同的分数(可能是设置/版本差异),但整体指向是一致的:工具使用 + 多轮执行 + coding agent 是 GLM-4.7 的主战场。

另外,媒体报道里还提到它在 Code Arena 盲测里“开源第一/国产第一”等说法,但这类信息缺少公开细节,我会把它当“热度信号”,不当作严肃结论。


4)“Vibe Coding / 审美提升”到底指什么:网页与幻灯片的默认质量更像“能直接用”

GLM-4.7 这次很罕见地把 UI 质量当成主卖点之一:官方直接说它会生成更干净、更现代的网页,幻灯片的布局与尺寸更准确。

BigModel 文档里也把它写得更“产品化”:前端视觉审美、PPT/海报版式遵循、留白与配色稳定性都在强调范围内。

如果你平时会用模型做 demo 页、后台管理台、或者给客户做方案 PPT,这类提升通常比“又多涨了 1 分”更有体感。


5)怎么用到手:在线体验、API、以及本地部署(公开权重)

官方给了三条路径:

  • 在线:Z.ai Chat 可直接选 GLM-4.7 体验
  • API:Z.ai 平台与 BigModel 文档都提供接入方式;并提到可在部分第三方平台调用(例如 OpenRouter)
  • 本地:模型权重在 Hugging Face 等平台公开;并给出 vLLM / SGLang / transformers 的部署指引

模型卡显示它是 358B 参数,许可证 MIT(这对“能不能放心用、怎么合规地用”很关键)。


6)价格与订阅:一个很现实的变量(而且目前还有“限时”策略)

BigModel 的价格页里,GLM-4.7 标注为旗舰模型之一,并给出了按 token 计费与“Limited-Time Free”的信息(页面摘要可见:输入/输出分别是 ¥4 / ¥16 这样的梯度标注)。

同时,BigModel 文档也在推 GLM Coding Plan:主打“20 元起包月”“适配多种主流 coding 工具”,并强调价格/用量优势。

如果你是个人开发者或小团队,这块反而是选型时绕不过去的部分:模型能力是一条线,成本与稳定性是另一条线,两条线要一起看。


7)我建议你怎么测它(比看榜单更靠谱)

如果你的目标是“写博客顺便给读者一个可操作的判断”,我会建议用三类任务快速定性:

  1. 真实 repo 的修 bug / 改功能:让它做多文件改动、跑测试、修 lint。看它会不会“改完就走”,还是能把任务闭环。
  2. 工具链路:给它一个需要浏览/检索/再总结的任务,看它工具调用是否稳定、是否会走回头路。
  3. 切换思考强度:同一任务分别用“不开思考 / 开思考 / 多轮保留思考”,看收益是否显著(如果收益明显,说明它的优势点确实在“长程任务的稳定性”上)。

8)一个小结:GLM-4.7 的信号是什么?

GLM-4.7 传达的信号很清晰:模型竞争不再只靠“更大、更强的通用对话”,而是更像在争夺一条具体链路——coding agent + 工具调用 + 端到端交付。

如果你平时的使用场景就是 Cursor/Cline/Claude Code 这一类,或者你在做“让模型帮你把事情做完”的系统(而不是让它写两段代码),那 GLM-4.7 值得第一时间拿来跑一轮自己的用例。





===============以下是旧信息,2025/12/23已发布===============

发布状态说明

截至目前的公开信息中,智谱 AI / BigModel 的官方“新品发布”公开列表尚未出现“GLM-4.7”的正式发布条目,因此该模型在本条目中按“未发布/传闻”状态收录(releaseStatus=1)。

目前关于“GLM-4.7”的信息主要来自社区讨论:在 r/LocalLLaMA 出现了以“GLM 4.7 is Coming?”为题的帖子,讨论点包括其命名是否意味着一次小版本迭代(而非全新架构大版本)、以及是否会在年末时间点出现更新等。由于上述信息并非官方公告或技术报告,本条目不对其架构、参数规模、上下文长度、评测分数与定价策略作无来源断言;相关字段在缺乏权威来源时保持为空或 0。

与已公开版本的关系

智谱在 2025-09-30 发布了 GLM-4.6 的官方介绍,强调了更长上下文窗口、编码与推理能力改进、以及面向 agent 场景的增强等。若 GLM-4.7 后续正式发布,建议优先以官方发布页、技术报告、API 文档为准,补齐其明确的规格、评测与访问方式,并同步更新本条目。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码