原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客，涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式

IMO-Bench：谷歌发布的用于大模型数学推理的鲁棒评估基准

IMO-Bench 是 Google DeepMind 开发的一套基准测试套件，针对国际数学奥林匹克（IMO）水平的数学问题设计，用于评估大型语言模型在数学推理方面的能力。该基准包括三个子基准：AnswerBench、ProofBench 和 GradingBench，涵盖从短答案验证到完整证明生成和评分的全过程。发布于 2025 年 11 月，该基准通过专家审核的问题集，帮助模型实现 IMO 金牌级别的性能，并提供自动评分机制以支持大规模评估。

2025/11/10 17:22:45696

#大模型数学推理评测 #大模型评测

大模型ARC-AGI-3评测基准：首个交互式推理基准

ARC-AGI 系列基准由 ARC Prize Foundation 维护，长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。2026年3月25日，该系列第三代版本 ARC-AGI-3 在旧金山 Y Combinator 正式发布，这是自2019年该系列初次推出以来，格式层面改动最大的一次迭代。

2026/04/11 22:28:51696

#ARC-AGI-3 #ARC-AGI

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力

短短两年间，AI技术的进步为软件工程带来了新的可能性。然而，这些模型在真实世界的软件工程任务中究竟能发挥多大的作用？它们能否通过完成实际的软件工程任务来赚取可观的收入？为了验证大模型解决真实任务的能力和水平，OpenAI发布了一个全新的大模型评测基准SWE-Lancer来评测大模型这方面的能力。

2025/02/19 21:40:31704

#SWE-Lancer #大模型评测

FrontierMath：AI大模型高级数学推理评测的新基准

FrontierMath是一个由Epoch AI开发的基准测试套件，包含数百个原创的数学问题。这些问题由专家数学家设计和审核，覆盖现代数学的主要分支，如数论、实分析、代数几何和范畴论。每个问题通常需要相关领域研究人员投入数小时至数天的努力来解决。基准采用未发表的问题和自动化验证机制，以减少数据污染风险并确保评估可靠性。当前最先进的AI模型在该基准上的解决率低于2%，这反映出AI在处理专家级数学推理时的局限性。该基准旨在为AI系统向研究级数学能力进步提供量化指标。

2025/10/19 17:45:17711

#FrontierMath #大模型数学能力

OpenAI正在开发一个全新的基于大模型的Agent产品

今天The Information独家披露了一个令人兴奋的消息，那就是OpenAI正在开发一种Agent产品，可以通过控制用户的设备来帮助用户完成复杂的任务。

2024/02/08 20:28:56712

#AIAgent #ChatGPT新功能

SWE-bench Multilingual 多语言软件工程评测基准全面解读：覆盖9种编程语言的大模型评测基准

SWE-bench Multilingual 是 SWE-bench 基准系列的扩展版本。该基准用于评估大语言模型在软件工程任务上的表现，覆盖多种编程语言。数据集包含 300 个从真实 GitHub 问题与对应拉取请求中提取的任务，涉及 42 个仓库和 9 种编程语言。模型接收问题描述与仓库快照后，需生成代码补丁，并通过失败到通过（F2P）和通过到通过（P2P）测试套件进行验证。

2026/03/21 19:33:49712

#SWE-benchMultilingual #大模型评测基准

OpenAI发布最强大模型OpenAI o3-pro：业界评价该模型解决复杂问题效果很好，但是回复一句“Hi”也需要三分钟

OpenAI 正式发布了其最新模型 OpenAI o3-pro，这是其旗舰模型 o3 的专业增强版。o3-pro 专为需要“更长时间思考”的复杂任务而设计，其核心亮点在于极致的可靠性和准确性，尤其在数学、科学和编程等专业领域表现卓越。根据OpenAI引入的全新“4/4可靠性”评测标准，o3-pro 的性能远超前代，OpenAI官方强调o3-pro在处理高难度、高风险任务的能力上实现了质的飞跃。

2025/06/11 08:57:28716

#GPT #o3-pro

AI 的下一阶段，不是更长的推理链，而是真正的行动力，大模型训练将从“推理式思考”走向“智能体式思考”——前 Qwen 负责人林俊旸（Junyang Lin）最新判断

unyang 是前 Qwen（通义千问）负责人，前段时间他的离职造成了许多人的关注。不过他并未沉寂，就在刚才，Junyang 发表了一篇关于如何训练大模型推理能力、以及未来大模型推理能力训练应该走向何方的深度讨论。

2026/04/06 11:07:43726

#Agent设计 #大模型Agent

谷歌发布视频大模型Veo 3.1：电影级别的视频生成，声音合成和同步能力大幅提升，但相比较Sora2依然有明显差距！

就在今日，Google 正式推出 Veo 3.1 和 Veo 3.1 Fast，这两款升级版视频生成模型以付费预览形式登陆 Gemini API。Veo 3.1的核心亮点是：更丰富的原生音频（从自然对话到同步音效）、更强的电影风格理解与叙事控制、以及显著增强的图生视频（Image-to-Video）质量与一致性。

2025/10/16 08:53:14727

#Sora #Veo

Google前AI研究人员认为2024年可能不会出现能与GPT-4竞争的开源模型/产品

OpenAI在2023年3月份发布了GPT-4，10个月过去了，目前也没有任何一家产品或者模型可以打败GPT-4。但是，很多人都对2024年抱有非常好的期待，认为2024年会出现能与GPT-4竞争的大模型。包括MistralAI的CEO也说他们会在2024年发布性能媲美GPT-4的大模型。但是，Google前AI研究人员，GalileoAI的联合创始人认为2024年也不会出现这种情况。

2024/01/02 10:54:48728

#GPT-4 #开源大模型

A21 Labs宣布开源520亿参数的全新混合专家大模型（Mixture of Experts，MoE）Jamba：单个GPU的上下文长度是Mixtral 8x7B的三倍

A21实验室是一家以色列的大模型研究机构，专门从事自然语言处理相关的研究。就在今天，A21实验室开源了一个全新的基于混合专家的的大语言模型Jamba，这个MoE模型可以在单个GPU上支持最高140K上下文的输入，非常具有吸引力。

2024/03/29 00:04:31729

#Jamba #MoE

DeepSeekAI开源第二代数学理论证明大模型DeepSeek-Prover-V2：让AI帮助数学家证明数学理论！

就在刚才，DeepSeek-AI发布了其新一代自动定理证明模型 **DeepSeek-Prover-V2**。尽管官方暂未公开详细报告，但从其前代模型 **DeepSeek-Prover-V1.5** 的技术细节，以及去年底发布的通用推理模型 DeepSeek-R1 的进展来看，V2 很可能在多个关键能力上取得了实质性提升。

2025/04/30 22:12:22729

#DeepSeek-Prover-V2 #DeepSeek

来自OpenAI官方的GPT-5编码提示词优化实践：6 条“更懂开发者”的提示工程技巧

GPT-5 在指令遵循和推理能力上比前代更强，但也因此更“敏感”：如果规则里有冲突或表述过度强硬，模型往往会卡壳或输出异常。为此，OpenAI 发布了面向开发者的《GPT-5 for Coding》技巧小抄，其中总结了使用 GPT-5 进行编程与代码生成时最实用的六条经验。这些技巧与普通的“写作提示工程”不同，它们专门针对软件开发场景：如何写规则、怎样控制推理强度、如何避免模型“想太多”，以及怎样利用 GPT-5 的新特性把它真正驯化成可靠的结对编程伙伴。本文对这六条技巧逐条进行解释总结。

2025/08/16 21:48:20732

#GPT-5 #Prompt

语音大模型正式进入Voice Agent时代！OpenAI发布GPT Realtime模型，可以直接调用接口和工具进行实时语音对话！

就在几个小时前，OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech（S2S）模型，能通过单个模型与 API完成从音频输入到音频输出的全流程，显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径，解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。

2025/08/29 04:27:25743

#GPTRealtime #OpenAI

70亿参数规模大模型新选择：Deci开源DeciLM-7B大模型，评测效果远超Llama2-7B，每秒可生成328个tokens。

DeciAI是一家成立于2019年的以色列企业，他们最主要的产品是深度学习平台Deci，可以让大家部署运行更快、更准确的模型。包括Adobe、HPE等都是他们的客户。在昨天，他们开源了截止目前可能是Open LLM Leader综合评分最高的大语言模型DeciLM-7B以及指令优化版本的DeciLM-7B-Instruct。最重要的是，这个模型以Apache2.0的协议开源，可以免费商用。

2023/12/13 22:50:58745

#DeciLM-7B #DeciLM

Tool Decathlon：大模型工具使用能力基准测试

Tool Decathlon（简称 Toolathlon）是一个针对语言代理的基准测试框架，用于评估大模型在真实环境中使用工具执行复杂任务的能力。该基准涵盖32个软件应用和604个工具，包括日常工具如 Google Calendar 和 Notion，以及专业工具如 WooCommerce、Kubernetes 和 BigQuery。它包含108个任务，每个任务平均需要约20次工具交互。该框架于2025年10月发布，旨在填补现有评测在工具多样性和长序列执行方面的空白。通过执行式评估，该基准提供可靠的性能指

2025/12/02 14:40:28746

#大模型工具使用 #大模型评测

阿里一次发布3款Qwen大模型：开源的全模态Qwen3-Omni和图像编辑大模型Qwen-Image-Edit-2509和不开源的语音识别大模型Qwen3-TTS

几个小时前，阿里一次更新了3个大模型，分别是开源的全模态大模型Qwen3-Omni、开源的图像编辑大模型Qwen3-Image-Edit和不开源的语音识别大模型Qwen3-TTS。本次发布的3个模型均为多模态大模型，可以说阿里的大模型真的是全面开花，节奏很快！

2025/09/23 09:40:47748

#Qwen-Image-Edit #Qwen3-Omni

OpenAI发布Frontier：一个企业级的Agent构建平台，把 AI 变成企业里的“数字同事”，那么OpenAI Frontier能做什么？

OpenAI 发布了一个全新的帮助企业构建AI Agent的平台：OpenAI Frontier。这个平台不再是一个强大的模型或者单体应用，而是一种“基础设施能力”，是旨在改变企业如何使用 AI 的平台。

2026/05/03 14:33:38748

#Frontier #OpenAI

大语言模型的开发者运维LLMOps来临，比MLOps概念还要新：吴恩达联合Google云研发人员推出免费的LLMOps课程

MLOps的主要目标是创建一个更有效、可重复和可靠的机器学习工作流程。现在，随着大语言模型的流行，LLMOps概念也随之提出。即如何高效地开发大模型应用，包括自动化管理升级如prompt、模型评估等。为此，吴恩达联合Google的研发人员推出了最新的大模型短课LLMOps，帮助大家学习大语言模型开发过程中的自动化测试、自动化Prompt管理等一系列实践，提高大模型应用开发的效率和质量。

2024/01/21 21:37:30749

#AI教程 #吴恩达

大模型评测基准Codeforces：代码生成能力的终极试金石

随着大型语言模型（LLM）能力的飞速发展，如何科学、准确地评估其性能，特别是深度的逻辑推理和代码生成能力，已成为人工智能领域的一大挑战。传统的评测基准在面对日益强大的模型时，逐渐暴露出数据污染、难度不足、无法有效评估真实推理能力等问题。在这一背景下，一个旨在检验模型竞赛级编程水平的评测基准——Codeforces应运而生，为我们提供了一个更严苛、更接近人类程序员真实水平的竞技场。

2025/08/06 09:10:31749

#代码生成评测 #大模型评测

Simple Bench：一个专为“常识”而生的大模型评测基准

随着大型语言模型（LLM）的飞速发展，如何准确、全面地评估它们的能力成为了一个日益重要的课题。在众多评测基准中，Simple Bench 以其独特的定位脱颖而出，它专注于检验模型在日常人类推理方面的能力，而在这些方面，当前最先进的模型往往还不如普通人。本文将详细介绍 Simple Bench 评测基准，探讨其出现的背景、设计理念、评测流程以及当前主流模型的表现。

2025/08/07 09:34:05751

#SimpleBench #大模型评测

新产品越来越近！OpenAI可能会推出全球最强个人助手Jarvis个人助理工具：OpenAI新商标Voice Engine透露出OpenAI正在做的事情！

OpenAI正在申请一个新商标Voice Engine，商标的覆盖范围主要是围绕语音识别、语音合成和语音生成几个方面。这暗示着OpenAI可能即将推出围绕语音引擎开发的产品或者服务，很有可能是类似Siri那样的个人助理产品。尽管这是商标申请，但是谷歌前雇员透露的信息以及上个月泄露的OpenAI正在开发的产品都似乎印证着OpenAI要做的事情：开发一个全球最强的个人助理，接管个人设备，以Jarvis那样的形式提供服务！

2024/03/22 17:21:48754

#OpenAI #VoiceEngine

Google DeepMind 发布 EmbeddingGemma：面向端侧的多语言开源向量模型（308M），小体量也能打

EmbeddingGemma 是基于 Gemma 3 架构打造的全新开源多语言向量模型，专为移动端/本地离线应用而生。它以约 308M 参数的紧凑体量，在 RAG、语义搜索、分类、聚类等任务上提供高质量表征，同时将隐私与可用性拉满：无需联网即可在本地生成向量。

2025/09/06 05:02:35760

#EmbeddingGemma #Gemma

OpenAI 未来计划曝光！Sam Altman 一句话暗示开源 GPT？~Sam在1月31日举办的AMA中问答记录总结

2025年1月31日，OpenAI在Reddit上举办了一场AMA（Ask Me Anything）活动，参与者包括Sam Altman、Mark Chen、Kevin Weil、Srinivas Narayanan、Michelle Pokrass和Hongyu Ren。他们分享了关于模型更新、未来功能、定价策略以及OpenAI对AI和AGI（通用人工智能）的宏观愿景。以下是此次问答的关键内容，并附有相关解释。这里最重要的信息可能是Sam透露认为当前OpenAI的闭源方式可能是历史错误的一方！

2025/02/01 17:19:17761

#AMA #GPT更新