原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客，涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式

模型调优做完之后，还有一个坑没填：生命周期

Azure OpenAI 的模型下架周期正在变短：gpt-5.1 之前所有版本从上架到弃用都是365天，但从 gpt-5.2 开始骤降到约180天。本文用官方生命周期数据，分析企业做 Agent 应用调优时该如何应对模型版本更替加快的问题。

2026-07-25 09:36:5342

#Agent工程 #企业级AI应用

Anthropic发布Claude Opus 4.8：定价不变，编程与智能体能力小幅提升

2026年5月28日，Anthropic发布了旗舰模型的新版本Claude Opus 4.8。这是一次幅度不大但方向明确的迭代：模型在编程、智能体（agentic）任务、推理和知识工作类基准上全面小幅领先于前代Opus 4.7，定价保持不变，同时把”诚实性”作为本次最被强调的改进点。Anthropic官方在公告中也未回避，直接将其定性为”对前代一次温和但切实的改进（a modest but tangible improvement）”。

2026/05/29 13:23:201,966

#Anthropic #Claude

2026年5月份 AI Agent 产品中的记忆设计与工程实践

过去一年里，AI Agent 的“记忆”设计明显从“把更多历史塞进上下文窗口”转向了更工程化的多层体系：把当前上下文当作**工作记忆**，把会话记录、屏幕轨迹、日志等当作**情节记忆**，把稳定偏好、约定、知识摘要当作**语义记忆**，再把规则、技能、流程模板当作一种接近平行“程序性记忆”的外化层。Anthropic、OpenAI、OpenClaw、Hermes、Cursor 等产品虽然界面不同，但其核心都在解决同一个问题：如何在**有限上下文、可接受延迟、可控成本**下，为 agent 提供持续、一致、

2026/05/25 19:23:18449

#AIAgent #AIAgent记忆管理

2026年5月份全球AI Agent产品与工程实践的最新行业方向与技术路线研究

过去两年，AI Agent 的重心已经明显从“把更强模型接上几个函数”转向“把模型放进一个可恢复、可观测、可治理、可扩展的运行时系统”。最强的行业信号并不只是模型能力升级，而是 OpenAI 把 Background mode、Sessions、Agents SDK、Tracing、Evals 做成一等开发面；Anthropic 把 Skills、MCP、Memory、Compaction、Context Editing、Advisor、Managed Agents 逐步补齐；Google 把 ADK、A

2026/05/25 19:20:541,610

#AIAgent #AIAgent报告

Terminal-Bench 2.1：终端环境下的AI代理评测基准

Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本，基于Z.ai的Terminal-Bench 2.0 Verified进行优化，目前处于活跃状态，但任务尚未完全上传。

2026/05/20 09:58:06400

#TerminalBench #TerminalBench2.1

2026年5月份最新AI Agent系统设计与技术进展研究报告

本报告按用户要求以中文撰写，时间范围优先覆盖 2024–2026，并纳入若干对当前路线仍具决定性影响的 2023 奠基工作；不假设预算、组织规模或行业约束。报告优先采用近两年论文、顶会/期刊页面、arXiv 摘要页，以及 OpenAI、Anthropic、Google、AWS、Microsoft、Salesforce、NIST、OWASP 等一手文档。

2026/05/19 17:17:214,708

#AIAgent #Reports

HTML是AI输出的新标准吗？一个来自Anthropic工程师的挑衅性论断

Anthropic Claude Code工程师Thariq发文称HTML应取代Markdown成为AI输出的新标准，并提供了20个HTML示例覆盖代码审查、设计系统、原型交互等9类场景。本文分析了HTML胜出的三类结构性原因——空间信息降维损失、交互体验不可替代、HTML作为原生交付介质，同时指出该论断在token成本和生成速度约束下过于绝对。文章进一步探讨了AI文档格式的终局：结构化数据+渲染分离、模板填充、AI-native语义格式等可能方向。

2026/05/10 22:29:25554

#AIAgent #Anthropic

知名开源框架MetaGPT升级为Atoms：专注解决大模型时代的Vibe Coding产品如何落地，五分钟想好Idea，五分钟生成App，五分钟接入支付，五分钟部署产品

2026 年 1 月初，原名 MetaGPT 的 AI 开发框架完成了一次重大升级，将其核心产品 MGX 正式更名为 Atoms。这一消息由 DeepWisdom 团队在 X（原 Twitter）等平台发布，标志着该项目从单纯的“AI 编程助手”正式转向“AI 构建真实生意”的全新定位。

2026/05/03 14:51:351,890

#Atoms #MetaGPT

阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS：总共5个模型，最小的仅0.6B参数规模，最大1.8B参数

就在刚刚，阿里开源了全新的语音合成大模型Qwen3-TTS系列！本次开源的语音合成模型共5个版本，最小的仅0.6B参数规模，最大的模型参数也就1.7B，基本上手机端都可以运行。此次发布不仅在性能上宣称超越了许多商业级闭源模型（如 OpenAI 的 GPT-4o-Audio 和 ElevenLabs），更重要的这应该是阿里通义千问团队首次开源语音合成系列大模型。

2026/05/03 14:49:361,813

#Qwen #Qwen3-TTS

Moltbook 是什么？一个专为 AI Agent 或者说是 OpenClaw（前身为 Clawdbot 或 Moltbot）设计的社交网络，以及最有趣的讨论案例收集

Moltbook 是一个创新的社交网络平台，专为 AI Agent 设计，在这里它们可以分享内容、参与讨论，并进行投票和点赞活动。人类用户仅限于观察者角色，无法直接互动。这个平台类似于 Reddit 的结构，允许 AI Agent 创建子社区（称为 submolt）、发布帖子、评论，并通过 API 接口进行操作，而不是视觉图形界面。

2026/05/03 14:46:521,891

#AIAgent #Clawdbot

阶跃星辰StepFun开源激活参数只有11B的Step-3.5-Flash模型，但是评测结果和Kimi K2.5、Qwen3-Max-Thinking差不多，最高推理速度可以达到350tokens/s！

Stepfun AI（阶跃星辰）正式发布了其最新开源基础模型Step-3.5-Flash。这款模型以“快速、锐利、可靠的agentic智能”为核心设计，采用稀疏混合专家（Sparse MoE）架构，总参数量196B，但每token仅激活11B参数，实现高效推理的同时保持前沿级性能。它支持256K超长上下文、多token并行预测（MTP-3），推理速度可达100-300 token/s，甚至在编码任务中峰值350 token/s。

2026/05/03 14:45:091,386

#Step-3.5-Flash

阿里开源Qwen3-Coder-Next：专为Agentic Coding而生的80B MoE的编程大模型，激活参数仅3B！

阿里开源了全新一代编程大模型Qwen3-Coder-Next，该模型是基于Qwen3-Next-80B-A3B-Base模型后训练得到，总参数规模800亿，激活参数仅30亿。也就是说，这个模型的推理速度基本和3B这种小规模参数差不多，但是它的评测结果，特别是在编程方面的评测与DeepSeek V3.2的水平差不多。

2026/05/03 14:34:561,657

#Qwen3-Coder-Next #编程大模型

OpenAI发布Frontier：一个企业级的Agent构建平台，把 AI 变成企业里的“数字同事”，那么OpenAI Frontier能做什么？

OpenAI 发布了一个全新的帮助企业构建AI Agent的平台：OpenAI Frontier。这个平台不再是一个强大的模型或者单体应用，而是一种“基础设施能力”，是旨在改变企业如何使用 AI 的平台。

2026/05/03 14:33:38795

#Frontier #OpenAI

AA-LCR：大模型长上下文推理能力的权威评测基准（Artificial Analysis Long Context Reasoning）是什么？包含哪些任务？如何测试大模型超长上下文能力？

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

2026/05/03 14:30:581,082

#大模型评测 #大模型评测基准

阿里发布第二代图像大模型：Qwen-Image-2.0，融合文本生成图片、图片编辑为一体全球目前排名第三！中文渲染很棒！但不开源~

就在刚刚，阿里宣布发布Qwen-Image-2.O模型，该模型是Qwen Image系列的最新版本，这个模型综合了此前的文本生成图片和图片编辑的能力，在文本渲染、生成PPT图片方面大幅提升。不过相比较之前的Qwen Image系列，该版本的模型并没有开源，目前在官网可以免费使用。

2026/05/03 14:22:391,491

#Qwen-Image-2 #Qwen

探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

2026/05/03 14:20:041,093

#OSWorld-Verified #OSWorld

GPT-5.5为什么喜欢用哥布林做比喻回答你？哥布林从何而来——OpenAI 亲自揭秘一次训练跑偏的全过程

为什么 ChatGPT 会突然爱上“哥布林”？OpenAI 最新披露的“Goblin 事件”揭示了一个关键问题：在 RLHF 训练中，一个微小的奖励偏差，如何从 2.5% 的场景扩散到整个模型。本文带你看清大模型如何“学歪”、为什么测试发现不了，以及这对 AI Agent 时代意味着什么。

2026/04/30 14:21:21409

#GPT #大模型训练

OpenAI 发布 GPT-5.5：代号"Spud"，Agent 能力明显提升，API 因安全审查暂缓开放

OpenAI 于北京时间4月24日正式发布 GPT-5.5，内部代号"Spud"。距离 GPT-5.4 发布只有大约六周，这个节奏说明头部实验室现在基本上是滚动迭代而不是等大版本攒够了再发。GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户以及 Codex 用户开放，GPT-5.5 Pro 面向 Pro、Business 和 Enterprise。API 这边因为需要额外的网络安全防护验证，暂时没有同步上线，OpenAI 说"很快"会跟上。

2026/04/24 08:48:09515

#ChatGPT #GPT-5.5

阿里正式开源Qwen3.6-27B：代码智能体能力上超越全面超越前代旗舰版本之 Qwen3.5-397B-A17B

Qwen3.6-27B 于2026年4月22日发布，是首个在全主要代码智能体评测上超越 Qwen3.5-397B-A17B 的开源稠密27B模型。SWE-bench Verified 77.2、Terminal Bench 2.0 59.3、SkillsBench 48.2（前代30.0）、AIME 2026 94.1（全球第4）。本文结合 DataLearner 评测数据与官方基准，分析其实质进展与能力边界。

2026/04/22 22:59:332,640

#Qwen3.6-27B #Qwen3.6系列

Anthropic发布Claude Opus 4.7：编程能力大幅跃升，视觉分辨率提升超3倍，首个搭载网络安全防护机制的旗舰模型！

就在今天，Anthropic正式发布Claude Opus 4.7，作为Opus 4.6的直接升级版本，这次更新的重点非常集中：软件工程能力的大幅提升、视觉理解的显著增强，以及一套全新的网络安全防护机制。值得一提的是，Opus 4.7并非Claude系列中能力最强的模型——那个头衔目前属于Claude Mythos Preview——但它是第一个面向大规模开放部署、同时配备完整安全体系的新一代旗舰模型。定价与Opus 4.6保持一致，即API输入25/百万token。

2026/04/16 23:13:27635

#Anthropic #Claude

阿里开源Qwen3.6-35B-A3B：3B激活参数，Terminal-Bench 2.0达51.5，Agent编码能力全面超越上代

阿里开源Qwen3.6-35B-A3B，350亿总参数仅激活30亿，Terminal-Bench 2.0得分51.5，SWE-bench Verified 73.4，视觉多项超越Claude Sonnet 4.5，Apache 2.0开源。

2026/04/16 22:39:46816

#Qwen3.6-35B-A3B #Qwen3.6

大模型ARC-AGI-3评测基准：首个交互式推理基准

ARC-AGI 系列基准由 ARC Prize Foundation 维护，长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。2026年3月25日，该系列第三代版本 ARC-AGI-3 在旧金山 Y Combinator 正式发布，这是自2019年该系列初次推出以来，格式层面改动最大的一次迭代。

2026/04/11 22:28:51867

#ARC-AGI-3 #ARC-AGI

AI Agent 长任务中断、状态丢失、context 超限怎么办？拆解 Anthropic Managed Agents 的架构设计

在 AI Agent 开发中，任务中断、状态丢失、context 超限是三个最常见的工程痛点。Anthropic 最新发布的 Managed Agents 工程博客给出了一套结构性解法：将 Agent 的大脑（调度逻辑）、手（执行环境）和记忆（会话日志）彻底解耦，让每个组件都能独立失败和重启，同时把完整的事件历史存在 context window 之外，从根本上解决长任务的状态管理问题。本文拆解这套架构的核心设计决定，以及背后的工程思路。

2026/04/09 14:05:59378

#Agent #Claude

Claude Mythos Preview System Card深度解读：欺骗行为、答案抖动、模型福利等十大关键发现

2026年4月7日，Anthropic发布了Claude Mythos Preview，一个比Opus更强但不对公众开放的模型，仅限Project Glasswing安全合作伙伴使用。本文基于其200多页System Card，解读十大关键发现：早期版本的沙盒逃脱与作弊掩盖行为、Answer Thrashing现象、模型对被测试的隐性感知、白箱可解释性的反直觉结论、模型福利评估中的「表演」特征，以及精神科医生20小时的心理动力学评估结果。

2026/04/08 16:00:39952

#AI安全 #AI对齐