标签

「R」相关文章

汇总「R」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#R

Anthropic发布Claude Opus 4.8：定价不变，编程与智能体能力小幅提升

2026年5月28日，Anthropic发布了旗舰模型的新版本Claude Opus 4.8。这是一次幅度不大但方向明确的迭代：模型在编程、智能体（agentic）任务、推理和知识工作类基准上全面小幅领先于前代Opus 4.7，定价保持不变，同时把”诚实性”作为本次最被强调的改进点。Anthropic官方在公告中也未回避，直接将其定性为”对前代一次温和但切实的改进（a modest but tangible improvement）”。

2026/05/29 13:23:201,806

#Anthropic #Claude

Terminal-Bench 2.1：终端环境下的AI代理评测基准

Terminal-Bench是一个针对AI代理在真实终端环境中的能力评测基准，由Stanford University与Laude Institute合作开发。Terminal-Bench 2.1是2.0的改进版本，基于Z.ai的Terminal-Bench 2.0 Verified进行优化，目前处于活跃状态，但任务尚未完全上传。

2026/05/20 09:58:06329

#TerminalBench #TerminalBench2.1

2026年5月份最新AI Agent系统设计与技术进展研究报告

本报告按用户要求以中文撰写，时间范围优先覆盖 2024–2026，并纳入若干对当前路线仍具决定性影响的 2023 奠基工作；不假设预算、组织规模或行业约束。报告优先采用近两年论文、顶会/期刊页面、arXiv 摘要页，以及 OpenAI、Anthropic、Google、AWS、Microsoft、Salesforce、NIST、OWASP 等一手文档。

2026/05/19 17:17:214,618

#AIAgent #Reports

HTML是AI输出的新标准吗？一个来自Anthropic工程师的挑衅性论断

Anthropic Claude Code工程师Thariq发文称HTML应取代Markdown成为AI输出的新标准，并提供了20个HTML示例覆盖代码审查、设计系统、原型交互等9类场景。本文分析了HTML胜出的三类结构性原因——空间信息降维损失、交互体验不可替代、HTML作为原生交付介质，同时指出该论断在token成本和生成速度约束下过于绝对。文章进一步探讨了AI文档格式的终局：结构化数据+渲染分离、模板填充、AI-native语义格式等可能方向。

2026/05/10 22:29:25530

#AIAgent #Anthropic

阿里开源Qwen3-Coder-Next：专为Agentic Coding而生的80B MoE的编程大模型，激活参数仅3B！

阿里开源了全新一代编程大模型Qwen3-Coder-Next，该模型是基于Qwen3-Next-80B-A3B-Base模型后训练得到，总参数规模800亿，激活参数仅30亿。也就是说，这个模型的推理速度基本和3B这种小规模参数差不多，但是它的评测结果，特别是在编程方面的评测与DeepSeek V3.2的水平差不多。

2026/05/03 14:34:561,629

#Qwen3-Coder-Next #编程大模型

OpenAI发布Frontier：一个企业级的Agent构建平台，把 AI 变成企业里的“数字同事”，那么OpenAI Frontier能做什么？

OpenAI 发布了一个全新的帮助企业构建AI Agent的平台：OpenAI Frontier。这个平台不再是一个强大的模型或者单体应用，而是一种“基础设施能力”，是旨在改变企业如何使用 AI 的平台。

2026/05/03 14:33:38775

#Frontier #OpenAI

探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

2026/05/03 14:20:041,048

#OSWorld-Verified #OSWorld

Anthropic发布Claude Opus 4.7：编程能力大幅跃升，视觉分辨率提升超3倍，首个搭载网络安全防护机制的旗舰模型！

就在今天，Anthropic正式发布Claude Opus 4.7，作为Opus 4.6的直接升级版本，这次更新的重点非常集中：软件工程能力的大幅提升、视觉理解的显著增强，以及一套全新的网络安全防护机制。值得一提的是，Opus 4.7并非Claude系列中能力最强的模型——那个头衔目前属于Claude Mythos Preview——但它是第一个面向大规模开放部署、同时配备完整安全体系的新一代旗舰模型。定价与Opus 4.6保持一致，即API输入25/百万token。

2026/04/16 23:13:27611

#Anthropic #Claude

大模型ARC-AGI-3评测基准：首个交互式推理基准

ARC-AGI 系列基准由 ARC Prize Foundation 维护，长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。2026年3月25日，该系列第三代版本 ARC-AGI-3 在旧金山 Y Combinator 正式发布，这是自2019年该系列初次推出以来，格式层面改动最大的一次迭代。

2026/04/11 22:28:51800

#ARC-AGI-3 #ARC-AGI

Claude Mythos Preview System Card深度解读：欺骗行为、答案抖动、模型福利等十大关键发现

2026年4月7日，Anthropic发布了Claude Mythos Preview，一个比Opus更强但不对公众开放的模型，仅限Project Glasswing安全合作伙伴使用。本文基于其200多页System Card，解读十大关键发现：早期版本的沙盒逃脱与作弊掩盖行为、Answer Thrashing现象、模型对被测试的隐性感知、白箱可解释性的反直觉结论、模型福利评估中的「表演」特征，以及精神科医生20小时的心理动力学评估结果。

2026/04/08 16:00:39928

#AI安全 #AI对齐

Claude Mythos 是什么？Anthropic最强模型评测、安全能力与Project Glasswing详解

Anthropic 正式发布 Claude Mythos Preview，内部代号 Capybara，能力全面超越 Opus 4.6。该模型以不到 $50 的成本发现了 OpenBSD 27 年零日漏洞，SWE-bench Pro 达到 77.8%。Anthropic 通过 Project Glasswing 向 40 家机构开放访问权限，暂不对公众发布。DataLearner 提供完整评测数据。

2026/04/08 16:00:31961

#Anthropic #ClaudeCapybara

xAI发布Grok 4.2 Beta版本：一个由四个专家组成的专业团队，实测效果目前还可以

就在刚才，Grok官网出现了Grok 4.2 Beta版本，并且已经可以直接使用。即使是免费用户，目前看也可以使用至少8次的提问。

2026/04/08 15:53:051,031

#Grok4.2 #GrokTeams

重磅！Anthropic官方数据泄露，正在测试新的大模型Claude Mythos，规模超越Opus，能力实现“阶梯式”飞跃！

几个小时前，Anthropic发生一起信息泄露事件，还没来得及官宣，自家最强新模型就被”意外”公之于众。新模型的能力据称远超Opus 4.6！

2026/04/08 09:43:46571

#Anthropic #Claude

OSWorld-Verified：大模型“用电脑”能力的权威评测基准

OSWorld（Open Source World）是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境（如MiniWoB或WebArena），而是直接在完整的Ubuntu、Windows和macOS系统中运行，让AI代理通过截图观察、鼠标键盘操作来完成任务。

2026/02/06 08:38:211,336

#OSWorld-Verified #大模型评测基准

AI编码领域的转变：Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

Andrej Karpathy预测2026年AI将主导软件编码工作流，带来巨大效率提升，但可能引发低质代码泛滥（slopacolypse）。Anthropic的Boris Cherny以Claude Code团队实践回应，展示近100% AI生成代码、通用工程师招聘策略，以及通过模型迭代有效控制质量问题。

2026/01/29 08:47:141,280

#AIAgent #AndrejKarpathy

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程（Claude Code这样的工具）：AI Agent正在重塑编码工作流，2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验，Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题，并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:431,700

#AIAgent #AndrejKarpathy

Clawdbot到底是啥？能做什么？可以替代Claude Cowork吗？我花了 40 小时深扒 Clawdbot：全是干货，包括那些他们没告诉你的真相

最近这几天，如果你的 X (Twitter) 首页被 Clawdbot 刷屏了，不用惊讶，主要是太火了。但是这个软件的使用有一定门槛，而且争议比较大。X上有一位博主分享了他对这个东西的看法和使用经验，挺详细的，对于想了解Clawdbot是啥的，这个文章不错。大家看也可以从这个文章看到Clawdbot能做什么，和Cowork对比有啥优点和缺点

2026/01/26 13:21:321,711

#Clawdbot #Cowork

ClawdBot：最新火爆网络的AI的桌面助手简介

ClawdBot 是一款开源AI代理工具，旨在帮助用户在本地设备上处理各种任务，在科技社区中迅速获得关注。它于2025年底由开发者Peter Steinberger（@steipete）推出，基于Anthropic的Claude模型，名称结合了“Claw”（龙虾钳子）和“Claude”，并以龙虾作为吉祥物，象征其适应性和本地运行特性。该工具强调本地优先的设计，用户可以完全控制数据和过程，避免对云服务的依赖。

2026/01/25 23:03:49969

#AI助手 #ClawdBot

Cursor 疯狂实验：用 GPT-5.2 花了一个星期在 Cursor 中开发了一个300万行代码的浏览器以及Claude Opus与GPT-5.2、GPT-5.2-Codex模型在Vibe Coding方面有什么差异

就在大家还在争论 AI 编程上限的时候，Cursor 团队发布了一份非常值得大家关注的内部测试报告，展示了当我们将 Agent 的规模和运行时间推向极致时，会发生什么。这不仅仅是简单的代码生成，而是让 AI 像人类团队一样协作，构建百万行级别的项目。这项实验为我们揭示了 AI 在编码领域的潜力与局限，值得每位开发者关注。

2026/01/16 08:26:10942

#AIIDE #Cursor

Anthropic 发布 Cowork：从 Claude Code 的发展历史看 Cowork 的能力与定位，它可能成为普通人的下一代桌面 AI 助手吗？

Anthropic 于 2026 年 1 月 12 日发布了 Cowork，这是一款基于 Claude 模型的新型 AI Agent工具，作为 Claude 桌面应用的 macOS 版本研究预览版推出。目前仅限 Claude Max 订阅者使用，未来计划扩展到 Windows 和跨设备同步。Cowork 继承了 Claude Code 的核心代理能力，但更注重非开发者用户的日常生产力任务，例如访问用户指定的文件夹，读取、编辑或创建文件，帮助整理杂乱下载、从截图生成电子表格，或从笔记起草报告。

2026/01/13 22:46:491,257

#Anthropic #ClaudeCode

重磅！阿里开源2个多模态向量大模型和重排序大模型：Qwen3-VL-Embedding和Qwen3-VL-Reranker，图片和视频也可以用来做RAG了！

就在刚刚，阿里巴巴正式免费开源了两款全新的多模态模型——Qwen3-VL-Embedding（多模态向量模型）和 Qwen3-VL-Reranker（多模态重排序模型），首次在开源体系中系统性补齐了多模态 RAG 在“向量化检索 + 精排重排”两个关键环节上的能力空白。这两个模型是基于强大的Qwen3-VL基础模型构建的专用多模态向量与重排（Reranking）模型。

2026/01/08 23:07:091,713

#Qwen3-VL-Embedding #Qwen3-VL-Reranker

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

AI Agent 的一个关键趋势正在浮现：从“快速回答问题”转向“长时间稳定执行复杂任务”。本文系统梳理了为什么 Anthropic、OpenAI 等企业开始强调“长时运行 Agent”，并解释其真实含义并非模型一直思考，而是通过作业化、异步执行、可恢复运行和动态上下文管理，实现跨会话完成复杂目标。文章深入对比了长时 Agent 与传统脚本化 LLM Loop 的本质差异，分析其在自治能力、上下文工程、耐久执行与治理上的核心价值，并总结构建长时运行 AI Agent 所需的关键技术等。

2026/01/04 23:01:191,131

#AIAgent #Long-RunningAgents

Context Arena：长上下文大模型评测基准介绍

Context Arena 是一个专注于评估大语言模型长上下文处理能力的基准平台。它基于 OpenAI 发布的 Multi-Round Coreference Resolution (MRCR) 数据集，提供交互式排行榜，用于比较不同模型在复杂长对话中的信息检索和理解性能。该基准强调模型在长上下文下的实际表现，避免单纯依赖训练数据记忆。

2025/12/27 10:42:001,057

#ContextArena #大模型评测

2025年的大模型训练和大模型应用与之前有什么差别？来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的年度总结：2025年6个大模型不一样的地方

昨天，Karpathy 发布了《2025 LLM Year in Review》，对过去一年大模型领域发生的结构性变化进行了深度复盘。在这篇总结中，他不再纠结于具体的模型参数，而是将目光投向了推理范式的演进、Agent 的真实形态以及一种被称为“Vibe Coding”的新型开发模式。

2025/12/21 21:10:171,137

#RLHF #RLVR