Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

月之暗面发布Kimi Claw：一个在云端拥有40G空间的24×7运行的OpenClaw，基于Kimi模型驱动

就在刚才，Moonshot AI（Kimi 团队）推出了 Kimi Claw（目前为 Beta 版）。这项服务让普通用户无需本地安装或维护服务器，就能快速获得一个类似 OpenClaw 的云端 AI 助手，随时在线、具备长期记忆和实际执行能力。

2026/04/08 16:00:134,993

#AI助手 #KimiClaw

ClawBench：针对OpenClaw场景的大模型智能体（LLM Agent）的评测基准。

ClawBench 是针对大模型智能体（LLM Agent）的评测基准。它通过隔离沙盒环境中的真实企业工作流任务，评估大模型在实际部署场景下的表现，与传统问答式或合成数据集基准形成区别。ClawBench 与 PinchBench 均服务于 OpenClaw 生态，但二者侧重点不同：PinchBench 是 OpenClaw 官方基准，由 kilo.ai 团队开发，聚焦 23 类真实任务的成功率、速度和成本；ClawBench 则独立构建，包含 30 个高级任务，覆盖 5 大核心业务场景，采用混合评分机制

2026/04/08 15:59:00395

#ClawBench #OpenClaw

xAI发布Grok 4.2 Beta版本：一个由四个专家组成的专业团队，实测效果目前还可以

就在刚才，Grok官网出现了Grok 4.2 Beta版本，并且已经可以直接使用。即使是免费用户，目前看也可以使用至少8次的提问。

2026/04/08 15:53:051,010

#Grok4.2 #GrokTeams

DeepSeek官网模型疑似更新为DeepSeek最新版，实测显示非此前的DeepSeek V3.2，最高支持100万tokens输入，以及知识截止日期为2025年5月，疑似全新模型

就在刚才，很多人发现DeepSeek官网已经更新了模型，虽然不确定是DeepSeek-V4，但是目前可以肯定，这不是之前公布的DeepSeek-V3.2而是一个全新的模型。为此，DataLearnerAI实测正式，这个模型的确并非此前的版本。

2026/04/08 15:50:36937

#DeepSeek

重磅！Anthropic官方数据泄露，正在测试新的大模型Claude Mythos，规模超越Opus，能力实现“阶梯式”飞跃！

几个小时前，Anthropic发生一起信息泄露事件，还没来得及官宣，自家最强新模型就被”意外”公之于众。新模型的能力据称远超Opus 4.6！

2026/04/08 09:43:46540

#Anthropic #Claude

Gemma 4 全面解读：首个 Apache 2.0 的 Google 开源模型，实测数学推理优秀，实测部分评测甚至好于 Qwen3.5-27B

2026年4月2日，Google DeepMind 正式发布了 Gemma 4 系列模型。自2024年首代 Gemma 发布以来，开发者已经累计下载超过4亿次，并在此基础上衍生出超过10万个变体版本，形成了所谓的"Gemmaverse"社区生态。这次的 Gemma 4，Google 不只是做了常规的性能升级，而是在许可证、模型架构和部署覆盖范围上同时迈出了一大步。

2026/04/06 17:33:26611

#gemma4 #gemma4-31b

MiniMax M2.7 发布：模型开始帮自己训练自己

MiniMaxAI 刚刚发布了全新的 M2.7 模型，官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型，也就是说模型在训练过程中进行了自我分析并参与迭代。目前 M2.7 已经可以在官网使用，接口价格不变。不过该模型当前并未宣布开源，还不确定未来情况。

2026/04/06 11:26:321,136

#MiniMaxAI #MiniMaxM2.7

AI 的下一阶段，不是更长的推理链，而是真正的行动力，大模型训练将从“推理式思考”走向“智能体式思考”——前 Qwen 负责人林俊旸（Junyang Lin）最新判断

unyang 是前 Qwen（通义千问）负责人，前段时间他的离职造成了许多人的关注。不过他并未沉寂，就在刚才，Junyang 发表了一篇关于如何训练大模型推理能力、以及未来大模型推理能力训练应该走向何方的深度讨论。

2026/04/06 11:07:43713

#Agent设计 #大模型Agent

Google Gemma 4 正式开源：Apache 2.0 协议、手机端可运行、原生支持多模态和 Agent 工作流

2026年4月2日，Google DeepMind 发布了 Gemma 4 系列，共四个版本：E2B、E4B、26B A4B 和 31B Dense。这也是 Gemma 系列首次采用 Apache 2.0 授权，允许完全商用和二次分发。

2026/04/06 11:01:58541

#gemma #gemma4

SWE-bench Multilingual 多语言软件工程评测基准全面解读：覆盖9种编程语言的大模型评测基准

SWE-bench Multilingual 是 SWE-bench 基准系列的扩展版本。该基准用于评估大语言模型在软件工程任务上的表现，覆盖多种编程语言。数据集包含 300 个从真实 GitHub 问题与对应拉取请求中提取的任务，涉及 42 个仓库和 9 种编程语言。模型接收问题描述与仓库快照后，需生成代码补丁，并通过失败到通过（F2P）和通过到通过（P2P）测试套件进行验证。

2026/03/21 19:33:49686

#SWE-benchMultilingual #大模型评测基准

PinchBench：OpenClaw AI 代理真实任务基准测试介绍

PinchBench 是 Kilo Code 团队开发的开源基准测试系统，用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务，计算代理的任务完成成功率，同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示，目前包含 50 个模型的 403 次运行记录，最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub（pinchbench/skill 仓库），任何开发者均可本地复现或添加

2026/03/18 17:00:131,555

#ClawBench #PinchBench

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026 是基于美国数学邀请赛（American Invitational Mathematics Examination）2026 年问题的评测基准，用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题，覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

2026/02/13 15:05:25736

#AIME #AIME2026

OSWorld-Verified：大模型“用电脑”能力的权威评测基准

OSWorld（Open Source World）是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境（如MiniWoB或WebArena），而是直接在完整的Ubuntu、Windows和macOS系统中运行，让AI代理通过截图观察、鼠标键盘操作来完成任务。

2026/02/06 08:38:211,171

#OSWorld-Verified #大模型评测基准

GDPval-AA：大模型在真实世界任务中的“经济价值”评测基准

OpenAI在2025年9月推出的GDPval基准，将焦点转向“具有经济价值的真实任务”，而第三方独立机构Artificial Analysis在此基础上开发的GDPval-AA，进一步引入了agentic（代理）能力评估和ELO排行榜，成为当前最受关注的“实用性”评测基准之一。

2026/02/06 08:34:581,144

#GDPval-AA #大模型评测基准

OpenAI发布桌面版本的编程助手：Codex app，图形化界面简洁美观，但目前仅支持mac os，用户可以限时免费使用Codex一个月

OpenAI 刚刚（2026年2月2日）正式推出了 Codex App (macOS 版)。这款产品被定位为“智能体指挥中心”（A Command Center for Agents），标志着 Codex 从单纯的代码生成工具演进为能够独立执行复杂、长周期任务的开发协作平台。

2026/02/03 08:40:261,752

#Codex #Codexapp

AI编码领域的转变：Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

Andrej Karpathy预测2026年AI将主导软件编码工作流，带来巨大效率提升，但可能引发低质代码泛滥（slopacolypse）。Anthropic的Boris Cherny以Claude Code团队实践回应，展示近100% AI生成代码、通用工程师招聘策略，以及通过模型迭代有效控制质量问题。

2026/01/29 08:47:141,149

#AIAgent #AndrejKarpathy

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

2026年1月27日，月之暗面（Moonshot AI）发布新一代模型Kimi K2.5。根据官方说明，这是Kimi K2的后续版本，目前已通过Kimi.com网页端和App向用户推送。该模型同步上线Kimi API开放平台及编程助手Kimi Code，模型权重与相关代码也在Hugging Face开源。

2026/01/27 17:27:053,537

#K2 #K2.5

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程（Claude Code这样的工具）：AI Agent正在重塑编码工作流，2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验，Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题，并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:431,351

#AIAgent #AndrejKarpathy

Clawdbot到底是啥？能做什么？可以替代Claude Cowork吗？我花了 40 小时深扒 Clawdbot：全是干货，包括那些他们没告诉你的真相

最近这几天，如果你的 X (Twitter) 首页被 Clawdbot 刷屏了，不用惊讶，主要是太火了。但是这个软件的使用有一定门槛，而且争议比较大。X上有一位博主分享了他对这个东西的看法和使用经验，挺详细的，对于想了解Clawdbot是啥的，这个文章不错。大家看也可以从这个文章看到Clawdbot能做什么，和Cowork对比有啥优点和缺点

2026/01/26 13:21:321,683

#Clawdbot #Cowork

ClawdBot：最新火爆网络的AI的桌面助手简介

ClawdBot 是一款开源AI代理工具，旨在帮助用户在本地设备上处理各种任务，在科技社区中迅速获得关注。它于2025年底由开发者Peter Steinberger（@steipete）推出，基于Anthropic的Claude模型，名称结合了“Claw”（龙虾钳子）和“Claude”，并以龙虾作为吉祥物，象征其适应性和本地运行特性。该工具强调本地优先的设计，用户可以完全控制数据和过程，避免对云服务的依赖。

2026/01/25 23:03:49932

#AI助手 #ClawdBot

Cursor 疯狂实验：用 GPT-5.2 花了一个星期在 Cursor 中开发了一个300万行代码的浏览器以及Claude Opus与GPT-5.2、GPT-5.2-Codex模型在Vibe Coding方面有什么差异

就在大家还在争论 AI 编程上限的时候，Cursor 团队发布了一份非常值得大家关注的内部测试报告，展示了当我们将 Agent 的规模和运行时间推向极致时，会发生什么。这不仅仅是简单的代码生成，而是让 AI 像人类团队一样协作，构建百万行级别的项目。这项实验为我们揭示了 AI 在编码领域的潜力与局限，值得每位开发者关注。

2026/01/16 08:26:10895

#AIIDE #Cursor

Anthropic 发布 Cowork：从 Claude Code 的发展历史看 Cowork 的能力与定位，它可能成为普通人的下一代桌面 AI 助手吗？

Anthropic 于 2026 年 1 月 12 日发布了 Cowork，这是一款基于 Claude 模型的新型 AI Agent工具，作为 Claude 桌面应用的 macOS 版本研究预览版推出。目前仅限 Claude Max 订阅者使用，未来计划扩展到 Windows 和跨设备同步。Cowork 继承了 Claude Code 的核心代理能力，但更注重非开发者用户的日常生产力任务，例如访问用户指定的文件夹，读取、编辑或创建文件，帮助整理杂乱下载、从截图生成电子表格，或从笔记起草报告。

2026/01/13 22:46:491,046

#Anthropic #ClaudeCode

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB（Massive Multimodal Embedding Benchmark）是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入，并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集，提供一个统一的评估平台，用于测试模型在分类、检索和其他任务上的性能。

2026/01/09 09:43:40903

#多模态嵌入评测 #大模型评测

重磅！阿里开源2个多模态向量大模型和重排序大模型：Qwen3-VL-Embedding和Qwen3-VL-Reranker，图片和视频也可以用来做RAG了！

就在刚刚，阿里巴巴正式免费开源了两款全新的多模态模型——Qwen3-VL-Embedding（多模态向量模型）和 Qwen3-VL-Reranker（多模态重排序模型），首次在开源体系中系统性补齐了多模态 RAG 在“向量化检索 + 精排重排”两个关键环节上的能力空白。这两个模型是基于强大的Qwen3-VL基础模型构建的专用多模态向量与重排（Reranking）模型。

2026/01/08 23:07:091,601

#Qwen3 #Qwen3-VL-Embedding