Tag

Articles tagged "A"

A curated list of original AI and LLM articles related to "A", updated regularly.

Tags:#A

模型调优做完之后，还有一个坑没填：生命周期

Azure OpenAI 的模型下架周期正在变短：gpt-5.1 之前所有版本从上架到弃用都是365天，但从 gpt-5.2 开始骤降到约180天。本文用官方生命周期数据，分析企业做 Agent 应用调优时该如何应对模型版本更替加快的问题。

2026-07-25 09:36:5365

#Agent工程 #企业级AI应用

Anthropic发布Claude Opus 4.8：定价不变，编程与智能体能力小幅提升

2026年5月28日，Anthropic发布了旗舰模型的新版本Claude Opus 4.8。这是一次幅度不大但方向明确的迭代：模型在编程、智能体（agentic）任务、推理和知识工作类基准上全面小幅领先于前代Opus 4.7，定价保持不变，同时把”诚实性”作为本次最被强调的改进点。Anthropic官方在公告中也未回避，直接将其定性为”对前代一次温和但切实的改进（a modest but tangible improvement）”。

2026/05/29 13:23:201,993

#Anthropic #Claude

2026年5月份 AI Agent 产品中的记忆设计与工程实践

过去一年里，AI Agent 的“记忆”设计明显从“把更多历史塞进上下文窗口”转向了更工程化的多层体系：把当前上下文当作**工作记忆**，把会话记录、屏幕轨迹、日志等当作**情节记忆**，把稳定偏好、约定、知识摘要当作**语义记忆**，再把规则、技能、流程模板当作一种接近平行“程序性记忆”的外化层。Anthropic、OpenAI、OpenClaw、Hermes、Cursor 等产品虽然界面不同，但其核心都在解决同一个问题：如何在**有限上下文、可接受延迟、可控成本**下，为 agent 提供持续、一致、

2026/05/25 19:23:18456

#AIAgent #AIAgent记忆管理

2026年5月份全球AI Agent产品与工程实践的最新行业方向与技术路线研究

过去两年，AI Agent 的重心已经明显从“把更强模型接上几个函数”转向“把模型放进一个可恢复、可观测、可治理、可扩展的运行时系统”。最强的行业信号并不只是模型能力升级，而是 OpenAI 把 Background mode、Sessions、Agents SDK、Tracing、Evals 做成一等开发面；Anthropic 把 Skills、MCP、Memory、Compaction、Context Editing、Advisor、Managed Agents 逐步补齐；Google 把 ADK、A

2026/05/25 19:20:541,625

#AIAgent #AIAgent报告

Terminal-Bench 2.1：终端环境下的AI代理评测基准

Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本，基于Z.ai的Terminal-Bench 2.0 Verified进行优化，目前处于活跃状态，但任务尚未完全上传。

2026/05/20 09:58:06440

#TerminalBench #TerminalBench2.1

2026年5月份最新AI Agent系统设计与技术进展研究报告

本报告按用户要求以中文撰写，时间范围优先覆盖 2024–2026，并纳入若干对当前路线仍具决定性影响的 2023 奠基工作；不假设预算、组织规模或行业约束。报告优先采用近两年论文、顶会/期刊页面、arXiv 摘要页，以及 OpenAI、Anthropic、Google、AWS、Microsoft、Salesforce、NIST、OWASP 等一手文档。

2026/05/19 17:17:214,733

#AIAgent #Reports

HTML是AI输出的新标准吗？一个来自Anthropic工程师的挑衅性论断

Anthropic Claude Code工程师Thariq发文称HTML应取代Markdown成为AI输出的新标准，并提供了20个HTML示例覆盖代码审查、设计系统、原型交互等9类场景。本文分析了HTML胜出的三类结构性原因——空间信息降维损失、交互体验不可替代、HTML作为原生交付介质，同时指出该论断在token成本和生成速度约束下过于绝对。文章进一步探讨了AI文档格式的终局：结构化数据+渲染分离、模板填充、AI-native语义格式等可能方向。

2026/05/10 22:29:25567

#AIAgent #Anthropic

知名开源框架MetaGPT升级为Atoms：专注解决大模型时代的Vibe Coding产品如何落地，五分钟想好Idea，五分钟生成App，五分钟接入支付，五分钟部署产品

2026 年 1 月初，原名 MetaGPT 的 AI 开发框架完成了一次重大升级，将其核心产品 MGX 正式更名为 Atoms。这一消息由 DeepWisdom 团队在 X（原 Twitter）等平台发布，标志着该项目从单纯的“AI 编程助手”正式转向“AI 构建真实生意”的全新定位。

2026/05/03 14:51:351,906

#Atoms #MetaGPT

Moltbook 是什么？一个专为 AI Agent 或者说是 OpenClaw（前身为 Clawdbot 或 Moltbot）设计的社交网络，以及最有趣的讨论案例收集

Moltbook 是一个创新的社交网络平台，专为 AI Agent 设计，在这里它们可以分享内容、参与讨论，并进行投票和点赞活动。人类用户仅限于观察者角色，无法直接互动。这个平台类似于 Reddit 的结构，允许 AI Agent 创建子社区（称为 submolt）、发布帖子、评论，并通过 API 接口进行操作，而不是视觉图形界面。

2026/05/03 14:46:521,912

#AIAgent #Clawdbot

阶跃星辰StepFun开源激活参数只有11B的Step-3.5-Flash模型，但是评测结果和Kimi K2.5、Qwen3-Max-Thinking差不多，最高推理速度可以达到350tokens/s！

Stepfun AI（阶跃星辰）正式发布了其最新开源基础模型Step-3.5-Flash。这款模型以“快速、锐利、可靠的agentic智能”为核心设计，采用稀疏混合专家（Sparse MoE）架构，总参数量196B，但每token仅激活11B参数，实现高效推理的同时保持前沿级性能。它支持256K超长上下文、多token并行预测（MTP-3），推理速度可达100-300 token/s，甚至在编码任务中峰值350 token/s。

2026/05/03 14:45:091,394

#Step-3.5-Flash

OpenAI发布Frontier：一个企业级的Agent构建平台，把 AI 变成企业里的“数字同事”，那么OpenAI Frontier能做什么？

OpenAI 发布了一个全新的帮助企业构建AI Agent的平台：OpenAI Frontier。这个平台不再是一个强大的模型或者单体应用，而是一种“基础设施能力”，是旨在改变企业如何使用 AI 的平台。

2026/05/03 14:33:38803

#Frontier #OpenAI

阿里发布第二代图像大模型：Qwen-Image-2.0，融合文本生成图片、图片编辑为一体全球目前排名第三！中文渲染很棒！但不开源~

就在刚刚，阿里宣布发布Qwen-Image-2.O模型，该模型是Qwen Image系列的最新版本，这个模型综合了此前的文本生成图片和图片编辑的能力，在文本渲染、生成PPT图片方面大幅提升。不过相比较之前的Qwen Image系列，该版本的模型并没有开源，目前在官网可以免费使用。

2026/05/03 14:22:391,513

#Qwen-Image-2 #Qwen

OpenAI 发布 GPT-5.5：代号"Spud"，Agent 能力明显提升，API 因安全审查暂缓开放

OpenAI 于北京时间4月24日正式发布 GPT-5.5，内部代号"Spud"。距离 GPT-5.4 发布只有大约六周，这个节奏说明头部实验室现在基本上是滚动迭代而不是等大版本攒够了再发。GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户以及 Codex 用户开放，GPT-5.5 Pro 面向 Pro、Business 和 Enterprise。API 这边因为需要额外的网络安全防护验证，暂时没有同步上线，OpenAI 说"很快"会跟上。

2026/04/24 08:48:09523

#ChatGPT #GPT-5.5

Anthropic发布Claude Opus 4.7：编程能力大幅跃升，视觉分辨率提升超3倍，首个搭载网络安全防护机制的旗舰模型！

就在今天，Anthropic正式发布Claude Opus 4.7，作为Opus 4.6的直接升级版本，这次更新的重点非常集中：软件工程能力的大幅提升、视觉理解的显著增强，以及一套全新的网络安全防护机制。值得一提的是，Opus 4.7并非Claude系列中能力最强的模型——那个头衔目前属于Claude Mythos Preview——但它是第一个面向大规模开放部署、同时配备完整安全体系的新一代旗舰模型。定价与Opus 4.6保持一致，即API输入25/百万token。

2026/04/16 23:13:27641

#Anthropic #Claude

阿里开源Qwen3.6-35B-A3B：3B激活参数，Terminal-Bench 2.0达51.5，Agent编码能力全面超越上代

阿里开源Qwen3.6-35B-A3B，350亿总参数仅激活30亿，Terminal-Bench 2.0得分51.5，SWE-bench Verified 73.4，视觉多项超越Claude Sonnet 4.5，Apache 2.0开源。

2026/04/16 22:39:46845

#Qwen3.6-35B-A3B #Qwen3.6

大模型ARC-AGI-3评测基准：首个交互式推理基准

ARC-AGI 系列基准由 ARC Prize Foundation 维护，长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。2026年3月25日，该系列第三代版本 ARC-AGI-3 在旧金山 Y Combinator 正式发布，这是自2019年该系列初次推出以来，格式层面改动最大的一次迭代。

2026/04/11 22:28:51880

#ARC-AGI-3 #ARC-AGI

AI Agent 长任务中断、状态丢失、context 超限怎么办？拆解 Anthropic Managed Agents 的架构设计

在 AI Agent 开发中，任务中断、状态丢失、context 超限是三个最常见的工程痛点。Anthropic 最新发布的 Managed Agents 工程博客给出了一套结构性解法：将 Agent 的大脑（调度逻辑）、手（执行环境）和记忆（会话日志）彻底解耦，让每个组件都能独立失败和重启，同时把完整的事件历史存在 context window 之外，从根本上解决长任务的状态管理问题。本文拆解这套架构的核心设计决定，以及背后的工程思路。

2026/04/09 14:05:59387

#Agent #Claude

Claude Mythos Preview System Card深度解读：欺骗行为、答案抖动、模型福利等十大关键发现

2026年4月7日，Anthropic发布了Claude Mythos Preview，一个比Opus更强但不对公众开放的模型，仅限Project Glasswing安全合作伙伴使用。本文基于其200多页System Card，解读十大关键发现：早期版本的沙盒逃脱与作弊掩盖行为、Answer Thrashing现象、模型对被测试的隐性感知、白箱可解释性的反直觉结论、模型福利评估中的「表演」特征，以及精神科医生20小时的心理动力学评估结果。

2026/04/08 16:00:39958

#AI安全 #AI对齐

Claude Mythos 是什么？Anthropic最强模型评测、安全能力与Project Glasswing详解

Anthropic 正式发布 Claude Mythos Preview，内部代号 Capybara，能力全面超越 Opus 4.6。该模型以不到 $50 的成本发现了 OpenBSD 27 年零日漏洞，SWE-bench Pro 达到 77.8%。Anthropic 通过 Project Glasswing 向 40 家机构开放访问权限，暂不对公众发布。DataLearner 提供完整评测数据。

2026/04/08 16:00:311,011

#Anthropic #ClaudeCapybara

月之暗面发布Kimi Claw：一个在云端拥有40G空间的24×7运行的OpenClaw，基于Kimi模型驱动

就在刚才，Moonshot AI（Kimi 团队）推出了 Kimi Claw（目前为 Beta 版）。这项服务让普通用户无需本地安装或维护服务器，就能快速获得一个类似 OpenClaw 的云端 AI 助手，随时在线、具备长期记忆和实际执行能力。

2026/04/08 16:00:135,232

#AI助手 #KimiClaw

ClawBench：针对OpenClaw场景的大模型智能体（LLM Agent）的评测基准。

ClawBench 是针对大模型智能体（LLM Agent）的评测基准。它通过隔离沙盒环境中的真实企业工作流任务，评估大模型在实际部署场景下的表现，与传统问答式或合成数据集基准形成区别。ClawBench 与 PinchBench 均服务于 OpenClaw 生态，但二者侧重点不同：PinchBench 是 OpenClaw 官方基准，由 kilo.ai 团队开发，聚焦 23 类真实任务的成功率、速度和成本；ClawBench 则独立构建，包含 30 个高级任务，覆盖 5 大核心业务场景，采用混合评分机制

2026/04/08 15:59:00465

#ClawBench #OpenClaw

xAI发布Grok 4.2 Beta版本：一个由四个专家组成的专业团队，实测效果目前还可以

就在刚才，Grok官网出现了Grok 4.2 Beta版本，并且已经可以直接使用。即使是免费用户，目前看也可以使用至少8次的提问。

2026/04/08 15:53:051,061

#Grok4.2 #GrokTeams

重磅！Anthropic官方数据泄露，正在测试新的大模型Claude Mythos，规模超越Opus，能力实现“阶梯式”飞跃！

几个小时前，Anthropic发生一起信息泄露事件，还没来得及官宣，自家最强新模型就被”意外”公之于众。新模型的能力据称远超Opus 4.6！

2026/04/08 09:43:46660

#Anthropic #Claude

Gemma 4 全面解读：首个 Apache 2.0 的 Google 开源模型，实测数学推理优秀，实测部分评测甚至好于 Qwen3.5-27B

2026年4月2日，Google DeepMind 正式发布了 Gemma 4 系列模型。自2024年首代 Gemma 发布以来，开发者已经累计下载超过4亿次，并在此基础上衍生出超过10万个变体版本，形成了所谓的"Gemmaverse"社区生态。这次的 Gemma 4，Google 不只是做了常规的性能升级，而是在许可证、模型架构和部署覆盖范围上同时迈出了一大步。

2026/04/06 17:33:26720

#gemma4-31b #gemma4