原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客，涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式

月之暗面发布Kimi Claw：一个在云端拥有40G空间的24×7运行的OpenClaw，基于Kimi模型驱动

就在刚才，Moonshot AI（Kimi 团队）推出了 Kimi Claw（目前为 Beta 版）。这项服务让普通用户无需本地安装或维护服务器，就能快速获得一个类似 OpenClaw 的云端 AI 助手，随时在线、具备长期记忆和实际执行能力。

2026/04/08 16:00:135,032

#AI助手 #KimiClaw

ClawBench：针对OpenClaw场景的大模型智能体（LLM Agent）的评测基准。

ClawBench 是针对大模型智能体（LLM Agent）的评测基准。它通过隔离沙盒环境中的真实企业工作流任务，评估大模型在实际部署场景下的表现，与传统问答式或合成数据集基准形成区别。ClawBench 与 PinchBench 均服务于 OpenClaw 生态，但二者侧重点不同：PinchBench 是 OpenClaw 官方基准，由 kilo.ai 团队开发，聚焦 23 类真实任务的成功率、速度和成本；ClawBench 则独立构建，包含 30 个高级任务，覆盖 5 大核心业务场景，采用混合评分机制

2026/04/08 15:59:00414

#ClawBench #OpenClaw

xAI发布Grok 4.2 Beta版本：一个由四个专家组成的专业团队，实测效果目前还可以

就在刚才，Grok官网出现了Grok 4.2 Beta版本，并且已经可以直接使用。即使是免费用户，目前看也可以使用至少8次的提问。

2026/04/08 15:53:051,018

#Grok4.2 #GrokTeams

DeepSeek官网模型疑似更新为DeepSeek最新版，实测显示非此前的DeepSeek V3.2，最高支持100万tokens输入，以及知识截止日期为2025年5月，疑似全新模型

就在刚才，很多人发现DeepSeek官网已经更新了模型，虽然不确定是DeepSeek-V4，但是目前可以肯定，这不是之前公布的DeepSeek-V3.2而是一个全新的模型。为此，DataLearnerAI实测正式，这个模型的确并非此前的版本。

2026/04/08 15:50:36952

#DeepSeek

重磅！Anthropic官方数据泄露，正在测试新的大模型Claude Mythos，规模超越Opus，能力实现“阶梯式”飞跃！

几个小时前，Anthropic发生一起信息泄露事件，还没来得及官宣，自家最强新模型就被”意外”公之于众。新模型的能力据称远超Opus 4.6！

2026/04/08 09:43:46554

#Anthropic #Claude

Gemma 4 全面解读：首个 Apache 2.0 的 Google 开源模型，实测数学推理优秀，实测部分评测甚至好于 Qwen3.5-27B

2026年4月2日，Google DeepMind 正式发布了 Gemma 4 系列模型。自2024年首代 Gemma 发布以来，开发者已经累计下载超过4亿次，并在此基础上衍生出超过10万个变体版本，形成了所谓的"Gemmaverse"社区生态。这次的 Gemma 4，Google 不只是做了常规的性能升级，而是在许可证、模型架构和部署覆盖范围上同时迈出了一大步。

2026/04/06 17:33:26641

#gemma4 #gemma4-31b

MiniMax M2.7 发布：模型开始帮自己训练自己

MiniMaxAI 刚刚发布了全新的 M2.7 模型，官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型，也就是说模型在训练过程中进行了自我分析并参与迭代。目前 M2.7 已经可以在官网使用，接口价格不变。不过该模型当前并未宣布开源，还不确定未来情况。

2026/04/06 11:26:321,152

#MiniMaxAI #MiniMaxM2.7

AI 的下一阶段，不是更长的推理链，而是真正的行动力，大模型训练将从“推理式思考”走向“智能体式思考”——前 Qwen 负责人林俊旸（Junyang Lin）最新判断

unyang 是前 Qwen（通义千问）负责人，前段时间他的离职造成了许多人的关注。不过他并未沉寂，就在刚才，Junyang 发表了一篇关于如何训练大模型推理能力、以及未来大模型推理能力训练应该走向何方的深度讨论。

2026/04/06 11:07:43724

#Agent设计 #大模型Agent

Google Gemma 4 正式开源：Apache 2.0 协议、手机端可运行、原生支持多模态和 Agent 工作流

2026年4月2日，Google DeepMind 发布了 Gemma 4 系列，共四个版本：E2B、E4B、26B A4B 和 31B Dense。这也是 Gemma 系列首次采用 Apache 2.0 授权，允许完全商用和二次分发。

2026/04/06 11:01:58555

#gemma #gemma4

SWE-bench Multilingual 多语言软件工程评测基准全面解读：覆盖9种编程语言的大模型评测基准

SWE-bench Multilingual 是 SWE-bench 基准系列的扩展版本。该基准用于评估大语言模型在软件工程任务上的表现，覆盖多种编程语言。数据集包含 300 个从真实 GitHub 问题与对应拉取请求中提取的任务，涉及 42 个仓库和 9 种编程语言。模型接收问题描述与仓库快照后，需生成代码补丁，并通过失败到通过（F2P）和通过到通过（P2P）测试套件进行验证。

2026/03/21 19:33:49710

#SWE-benchMultilingual #大模型评测基准

PinchBench：OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统，用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务，计算代理的任务完成成功率，同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示，目前包含 50 个模型的 403 次运行记录，最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub（pinchbench/skill 仓库），任何开发者均可本地复现或添加

2026/03/18 17:00:131,585

#ClawBench #PinchBench

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026 是基于美国数学邀请赛（American Invitational Mathematics Examination）2026 年问题的评测基准，用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题，覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

2026/02/13 15:05:25781

#AIME #AIME2026

OSWorld-Verified：大模型“用电脑”能力的权威评测基准

OSWorld（Open Source World）是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境（如MiniWoB或WebArena），而是直接在完整的Ubuntu、Windows和macOS系统中运行，让AI代理通过截图观察、鼠标键盘操作来完成任务。

2026/02/06 08:38:211,244

#OSWorld-Verified #大模型评测基准

GDPval-AA：大模型在真实世界任务中的“经济价值”评测基准

OpenAI在2025年9月推出的GDPval基准，将焦点转向“具有经济价值的真实任务”，而第三方独立机构Artificial Analysis在此基础上开发的GDPval-AA，进一步引入了agentic（代理）能力评估和ELO排行榜，成为当前最受关注的“实用性”评测基准之一。

2026/02/06 08:34:581,174

#GDPval-AA #大模型评测基准

OpenAI发布桌面版本的编程助手：Codex app，图形化界面简洁美观，但目前仅支持mac os，用户可以限时免费使用Codex一个月

OpenAI 刚刚（2026年2月2日）正式推出了 Codex App (macOS 版)。这款产品被定位为“智能体指挥中心”（A Command Center for Agents），标志着 Codex 从单纯的代码生成工具演进为能够独立执行复杂、长周期任务的开发协作平台。

2026/02/03 08:40:261,784

#Codex #Codexapp

AI编码领域的转变：Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

Andrej Karpathy预测2026年AI将主导软件编码工作流，带来巨大效率提升，但可能引发低质代码泛滥（slopacolypse）。Anthropic的Boris Cherny以Claude Code团队实践回应，展示近100% AI生成代码、通用工程师招聘策略，以及通过模型迭代有效控制质量问题。

2026/01/29 08:47:141,206

#AIAgent #AndrejKarpathy

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

2026年1月27日，月之暗面（Moonshot AI）发布新一代模型Kimi K2.5。根据官方说明，这是Kimi K2的后续版本，目前已通过Kimi.com网页端和App向用户推送。该模型同步上线Kimi API开放平台及编程助手Kimi Code，模型权重与相关代码也在Hugging Face开源。

2026/01/27 17:27:053,599

#K2 #K2.5

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程（Claude Code这样的工具）：AI Agent正在重塑编码工作流，2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验，Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题，并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:431,461

#AIAgent #AndrejKarpathy

Clawdbot到底是啥？能做什么？可以替代Claude Cowork吗？我花了 40 小时深扒 Clawdbot：全是干货，包括那些他们没告诉你的真相

最近这几天，如果你的 X (Twitter) 首页被 Clawdbot 刷屏了，不用惊讶，主要是太火了。但是这个软件的使用有一定门槛，而且争议比较大。X上有一位博主分享了他对这个东西的看法和使用经验，挺详细的，对于想了解Clawdbot是啥的，这个文章不错。大家看也可以从这个文章看到Clawdbot能做什么，和Cowork对比有啥优点和缺点

2026/01/26 13:21:321,699

#Clawdbot #Cowork

ClawdBot：最新火爆网络的AI的桌面助手简介

ClawdBot 是一款开源AI代理工具，旨在帮助用户在本地设备上处理各种任务，在科技社区中迅速获得关注。它于2025年底由开发者Peter Steinberger（@steipete）推出，基于Anthropic的Claude模型，名称结合了“Claw”（龙虾钳子）和“Claude”，并以龙虾作为吉祥物，象征其适应性和本地运行特性。该工具强调本地优先的设计，用户可以完全控制数据和过程，避免对云服务的依赖。

2026/01/25 23:03:49951

#AI助手 #ClawdBot

Cursor 疯狂实验：用 GPT-5.2 花了一个星期在 Cursor 中开发了一个300万行代码的浏览器以及Claude Opus与GPT-5.2、GPT-5.2-Codex模型在Vibe Coding方面有什么差异

就在大家还在争论 AI 编程上限的时候，Cursor 团队发布了一份非常值得大家关注的内部测试报告，展示了当我们将 Agent 的规模和运行时间推向极致时，会发生什么。这不仅仅是简单的代码生成，而是让 AI 像人类团队一样协作，构建百万行级别的项目。这项实验为我们揭示了 AI 在编码领域的潜力与局限，值得每位开发者关注。

2026/01/16 08:26:10917

#AIIDE #Cursor

Anthropic 发布 Cowork：从 Claude Code 的发展历史看 Cowork 的能力与定位，它可能成为普通人的下一代桌面 AI 助手吗？

Anthropic 于 2026 年 1 月 12 日发布了 Cowork，这是一款基于 Claude 模型的新型 AI Agent工具，作为 Claude 桌面应用的 macOS 版本研究预览版推出。目前仅限 Claude Max 订阅者使用，未来计划扩展到 Windows 和跨设备同步。Cowork 继承了 Claude Code 的核心代理能力，但更注重非开发者用户的日常生产力任务，例如访问用户指定的文件夹，读取、编辑或创建文件，帮助整理杂乱下载、从截图生成电子表格，或从笔记起草报告。

2026/01/13 22:46:491,113

#Anthropic #ClaudeCode

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB（Massive Multimodal Embedding Benchmark）是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入，并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集，提供一个统一的评估平台，用于测试模型在分类、检索和其他任务上的性能。

2026/01/09 09:43:40943

#多模态嵌入评测 #大模型评测

重磅！阿里开源2个多模态向量大模型和重排序大模型：Qwen3-VL-Embedding和Qwen3-VL-Reranker，图片和视频也可以用来做RAG了！

就在刚刚，阿里巴巴正式免费开源了两款全新的多模态模型——Qwen3-VL-Embedding（多模态向量模型）和 Qwen3-VL-Reranker（多模态重排序模型），首次在开源体系中系统性补齐了多模态 RAG 在“向量化检索 + 精排重排”两个关键环节上的能力空白。这两个模型是基于强大的Qwen3-VL基础模型构建的专用多模态向量与重排（Reranking）模型。

2026/01/08 23:07:091,626

#Qwen3 #Qwen3-VL-Embedding