大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客，涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式

按日期排序按浏览量排序

Ai2发布全新评测基准SciArena：为科学文献任务而生的大模型评测新基准，o3大幅领先所有大模型

Ai2发布全新评测基准SciArena：为科学文献任务而生的大模型评测新基准，o3大幅领先所有大模型

Ai2近日发布的全新评测平台——SciArena，为这一痛点带来了创新解法。此次产品不仅继承了“人类众包对比评测”的理念，更结合科学问题的独特复杂性，构建了开放、透明且可迭代的模型评测生态。

2025/07/02 21:06:29477

#SciArena #大模型科研评测

关于GPT-4的多模态版本最新消息：可能的代号是Gobi，也许会比Google下一代LLM的Gemini更早发布

关于GPT-4的多模态版本最新消息：可能的代号是Gobi，也许会比Google下一代LLM的Gemini更早发布

The Information最新消息透露OpenAI正在抓紧准备GPT-4多模态版本的发布，可能称为GPT4-Vision。

2023/09/20 11:23:28475

#Gemini #GPT-4-Vision

重磅！Anthropic官方数据泄露，正在测试新的大模型Claude Mythos，规模超越Opus，能力实现“阶梯式”飞跃！

重磅！Anthropic官方数据泄露，正在测试新的大模型Claude Mythos，规模超越Opus，能力实现“阶梯式”飞跃！

几个小时前，Anthropic发生一起信息泄露事件，还没来得及官宣，自家最强新模型就被”意外”公之于众。新模型的能力据称远超Opus 4.6！

2026/04/08 09:43:46475

#Anthropic #Claude

大模型ARC-AGI-3评测基准：首个交互式推理基准

大模型ARC-AGI-3评测基准：首个交互式推理基准

ARC-AGI 系列基准由 ARC Prize Foundation 维护，长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。2026年3月25日，该系列第三代版本 ARC-AGI-3 在旧金山 Y Combinator 正式发布，这是自2019年该系列初次推出以来，格式层面改动最大的一次迭代。

2026/04/11 22:28:51469

#ARC-AGI #ARC-AGI-3

阿里开源Qwen3.6-35B-A3B：3B激活参数，Terminal-Bench 2.0达51.5，Agent编码能力全面超越上代

阿里开源Qwen3.6-35B-A3B：3B激活参数，Terminal-Bench 2.0达51.5，Agent编码能力全面超越上代

阿里开源Qwen3.6-35B-A3B，350亿总参数仅激活30亿，Terminal-Bench 2.0得分51.5，SWE-bench Verified 73.4，视觉多项超越Claude Sonnet 4.5，Apache 2.0开源。

2026/04/16 22:39:46469

#Qwen3.6 #Qwen3.6-35B-A3B

ManusAI产品介绍和特点总结，以及用户对该产品的评价总结，背后的开发团队介绍

ManusAI产品介绍和特点总结，以及用户对该产品的评价总结，背后的开发团队介绍

Manus AI 是一款尖端的人工智能代理程序，于 2025 年 3 月 6 日正式发布，旨在跨多个领域自主执行复杂任务，弥合人类意图与可操作结果之间的差距。它由 Butterfly Effect 开发，该公司在中国（北京和武汉）以及新加坡（BUTTERFLY EFFECT PTE. LTD.）设有运营机构。以下内容基于截至 2025 年 7 月 5 日的最新信息，涵盖其产品功能、关键技术特点及用户反馈。

2025/07/06 11:07:34469

#AIAgent #Manus

MiniMax-M1与其它模型在不同评测上的对比结果

MiniMax-M1与其它模型在不同评测上的对比结果

2025/06/17 13:52:07466

GPT-5.1 有哪些提升？来自 OpenAI 官方 AMA 的能力、推理模式、安全策略全解读

GPT-5.1 有哪些提升？来自 OpenAI 官方 AMA 的能力、推理模式、安全策略全解读

2025 年 11 月 13 日，OpenAI 团队在 Reddit 上进行了一场针对 GPT-5.1、模型自定义能力、开发者 API、未来路线图的公开 AMA（Ask Me Anything）。这次交流并不是简单的功能答疑，而是罕见地从内部视角解释了他们如何思考安全策略、模型行为塑形、推理模式优化、人格定制逻辑、多模态进展以及实际工程实现细节。

2025/11/14 22:30:39466

Google Gemma 4 正式开源：Apache 2.0 协议、手机端可运行、原生支持多模态和 Agent 工作流

Google Gemma 4 正式开源：Apache 2.0 协议、手机端可运行、原生支持多模态和 Agent 工作流

2026年4月2日，Google DeepMind 发布了 Gemma 4 系列，共四个版本：E2B、E4B、26B A4B 和 31B Dense。这也是 Gemma 系列首次采用 Apache 2.0 授权，允许完全商用和二次分发。

2026/04/06 11:01:58451

IOI（International Olympiad in Informatics）：从世界顶级算法竞赛到大语言模型的新基准

IOI（International Olympiad in Informatics）：从世界顶级算法竞赛到大语言模型的新基准

在衡量大语言模型（LLM）智能水平的众多方法中，除了常见的常识推理、专业领域测评外，还有一个正在兴起且极具挑战性的方向——算法问题求解。在这一领域，几乎没有哪项比赛能比国际信息学奥林匹克（International Olympiad in Informatics，简称 IOI）更具权威性与含金量。

2025/08/12 14:48:26441

#大模型数学能力评测 #大模型评测

OpenAI发布GPT-5.1：围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级！重回写作排名第一！

OpenAI发布GPT-5.1：围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级！重回写作排名第一！

OpenAI 于 2025 年 11 月正式发布 GPT-5 系列的阶段性更新版本 —— GPT-5.1。这一更新并非针对模型架构的全面重做，而是围绕“对话体验、一致性、任务适配性”进行的系统化优化。在 GPT-5 推出后，业界对其不稳定回复、语气波动、任务深度控制不足等表现提出了不少批评，因此本次更新可视为 OpenAI 对这些问题的集中调整。

2025/11/13 16:16:57436

#GPT-5.1 #OpenAI

大模型能不能写 PPT？AI 办公如何真正落地？以办公小浣熊为例，看一种更自然的大模型办公方式正在出现

大模型能不能写 PPT？AI 办公如何真正落地？以办公小浣熊为例，看一种更自然的大模型办公方式正在出现

AI 能不能替我做报告”几乎成了办公室里出现频率最高的疑问之一。模型能力的提升有目共睹，API 的边界也在持续扩张，但回到日常，那些真正让人感到疲惫的依旧是最具体的任务：一份复盘写到深夜，一个 PPT 改了十几版，一张 Excel 来回分析到眼花。它们看似普通，却占据了知识工作中惊人比例的时间。本文主要看一下办公小浣熊这个颇具代表性的大模型应用落地思路。

2025/11/28 10:55:12427

#大模型办公 #大模型应用

大模型评测SimpleVQA全方位深度解析，直击多模态模型“事实幻觉”

大模型评测SimpleVQA全方位深度解析，直击多模态模型“事实幻觉”

随着多模态大语言模型（MLLM）在各个领域的应用日益广泛，一个核心问题浮出水面：我们如何信赖它们生成内容的准确性？当模型需要结合图像和文本进行问答时，其回答是否基于事实，还是仅仅是“看似合理”的幻觉？为了应对这一挑战，一个名为SimpleVQA的新型评测基准应运而生，旨在为多模态模型的事实性能力提供一个清晰、可量化的度量衡。

2025/08/01 15:49:57424

#多模态评测 #大模型评测

GPT-4.5发布时间越来越近，OpenAI安卓客户端泄露GPT-4.5即将推出，Pro用户可以做好准备，Plus用户请往后

GPT-4.5发布时间越来越近，OpenAI安卓客户端泄露GPT-4.5即将推出，Pro用户可以做好准备，Plus用户请往后

最近，一张截图在网络上流传，显示OpenAI安卓客户端的应用字符串文件（strings.xml）中出现了关于GPT-4.5的相关描述。这一发现引发了广泛关注，暗示OpenAI可能即将推出其最新的大型语言模型——GPT-4.5。该信息最早由开发者 @bitbor91 发现并分享，截图内容似乎来自ChatGPT安卓客户端的应用资源文件。

2025/02/26 18:49:57422

#GPT-4.5 #OpenAI

Anthropic发布了Claude Opus 4.1：这是一个Claude Opus 4的小幅升级版本，价格和技术参数不变，性能略有提升

Anthropic发布了Claude Opus 4.1：这是一个Claude Opus 4的小幅升级版本，价格和技术参数不变，性能略有提升

Anthropic 在 Opus 4 发布不到三个月后推出 Claude Opus 4.1，宣称“可直接替换”旧版模型。更新聚焦真实世界编码、长链路代理（agentic）任务和细粒度推理，同时保持相同 API 名称结构和计费档位，方便现有应用平滑迁移。

2025/08/07 23:37:36413

Anthropic发布Claude Opus 4.7：编程能力大幅跃升，视觉分辨率提升超3倍，首个搭载网络安全防护机制的旗舰模型！

Anthropic发布Claude Opus 4.7：编程能力大幅跃升，视觉分辨率提升超3倍，首个搭载网络安全防护机制的旗舰模型！

就在今天，Anthropic正式发布Claude Opus 4.7，作为Opus 4.6的直接升级版本，这次更新的重点非常集中：软件工程能力的大幅提升、视觉理解的显著增强，以及一套全新的网络安全防护机制。值得一提的是，Opus 4.7并非Claude系列中能力最强的模型——那个头衔目前属于Claude Mythos Preview——但它是第一个面向大规模开放部署、同时配备完整安全体系的新一代旗舰模型。定价与Opus 4.6保持一致，即API输入25/百万token。

2026/04/16 23:13:27368

#Anthropic #Claude

OpenAI 发布 GPT-5.5：代号"Spud"，Agent 能力明显提升，API 因安全审查暂缓开放

OpenAI 发布 GPT-5.5：代号"Spud"，Agent 能力明显提升，API 因安全审查暂缓开放

OpenAI 于北京时间4月24日正式发布 GPT-5.5，内部代号"Spud"。距离 GPT-5.4 发布只有大约六周，这个节奏说明头部实验室现在基本上是滚动迭代而不是等大版本攒够了再发。GPT-5.5 即日起向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户以及 Codex 用户开放，GPT-5.5 Pro 面向 Pro、Business 和 Enterprise。API 这边因为需要额外的网络安全防护验证，暂时没有同步上线，OpenAI 说"很快"会跟上。

2026/04/24 08:48:09323

在 API 和 ChatGPT 之间迷路？GPT-5.1、GPT-5.1-Chat、GPT-5.1 Instant 的真正区别解释（DataLearnerAI）

在 API 和 ChatGPT 之间迷路？GPT-5.1、GPT-5.1-Chat、GPT-5.1 Instant 的真正区别解释（DataLearnerAI）

2025/11/15 15:20:47318

ClawBench：针对OpenClaw场景的大模型智能体（LLM Agent）的评测基准。

ClawBench：针对OpenClaw场景的大模型智能体（LLM Agent）的评测基准。

ClawBench 是针对大模型智能体（LLM Agent）的评测基准。它通过隔离沙盒环境中的真实企业工作流任务，评估大模型在实际部署场景下的表现，与传统问答式或合成数据集基准形成区别。ClawBench 与 PinchBench 均服务于 OpenClaw 生态，但二者侧重点不同：PinchBench 是 OpenClaw 官方基准，由 kilo.ai 团队开发，聚焦 23 类真实任务的成功率、速度和成本；ClawBench 则独立构建，包含 30 个高级任务，覆盖 5 大核心业务场景，采用混合评分机制

2026/04/08 15:59:00296

#ClawBench #OpenClaw

GPT-5.5为什么喜欢用哥布林做比喻回答你？哥布林从何而来——OpenAI 亲自揭秘一次训练跑偏的全过程

GPT-5.5为什么喜欢用哥布林做比喻回答你？哥布林从何而来——OpenAI 亲自揭秘一次训练跑偏的全过程

为什么 ChatGPT 会突然爱上“哥布林”？OpenAI 最新披露的“Goblin 事件”揭示了一个关键问题：在 RLHF 训练中，一个微小的奖励偏差，如何从 2.5% 的场景扩散到整个模型。本文带你看清大模型如何“学歪”、为什么测试发现不了，以及这对 AI Agent 时代意味着什么。

2026/04/30 14:21:21281

#GPT #大模型训练

AI Agent 长任务中断、状态丢失、context 超限怎么办？拆解 Anthropic Managed Agents 的架构设计

AI Agent 长任务中断、状态丢失、context 超限怎么办？拆解 Anthropic Managed Agents 的架构设计

在 AI Agent 开发中，任务中断、状态丢失、context 超限是三个最常见的工程痛点。Anthropic 最新发布的 Managed Agents 工程博客给出了一套结构性解法：将 Agent 的大脑（调度逻辑）、手（执行环境）和记忆（会话日志）彻底解耦，让每个组件都能独立失败和重启，同时把完整的事件历史存在 context window 之外，从根本上解决长任务的状态管理问题。本文拆解这套架构的核心设计决定，以及背后的工程思路。

2026/04/09 14:05:59202

HTML是AI输出的新标准吗？一个来自Anthropic工程师的挑衅性论断

HTML是AI输出的新标准吗？一个来自Anthropic工程师的挑衅性论断

Anthropic Claude Code工程师Thariq发文称HTML应取代Markdown成为AI输出的新标准，并提供了20个HTML示例覆盖代码审查、设计系统、原型交互等9类场景。本文分析了HTML胜出的三类结构性原因——空间信息降维损失、交互体验不可替代、HTML作为原生交付介质，同时指出该论断在token成本和生成速度约束下过于绝对。文章进一步探讨了AI文档格式的终局：结构化数据+渲染分离、模板填充、AI-native语义格式等可能方向。

2026/05/10 22:29:25142

#AIAgent #Anthropic

1...3940

下一页

专题合集

RAG（检索增强生成）Long Context 长上下文 AI Agent 实践

最热博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

Python包中__init__.py文件的作用和用法
月之暗面开源了一个全新的160亿参数规模的MoE大语言模型Moonlight-16B：其训练算力仅需业界主流的一半
让大模型支持更长的上下文的方法哪个更好？训练支持更长上下文的模型还是基于检索增强？
定位
FrontierMath：AI大模型高级数学推理评测的新基准
用python绘制散点图

OpenAI发布企业使用的ChatGPT：没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能，但是暂不支持私有化部署

Anthropic发布了Claude Opus 4.1：这是一个Claude Opus 4的小幅升级版本，价格和技术参数不变，性能略有提升