大模型评测

大模型列表

大模型对比

搜索博客

加载中...

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

首页/
博客/
标签：大模型

标签

「大模型」相关文章

汇总「大模型」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#大模型

探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

探索 OSWorld Verified：大模型AI Agent在真实计算机任务中的评估框架

OSWorld 是一个用于测试 AI 代理在真实计算机环境中的基准。这些代理是能处理文字、图片等信息的 AI 系统。基准包括开放式任务，比如操作文件或使用软件。OSWorld Verified 是它的改进版，通过修复问题和提升运行方式，提供更准确的测试结果。它支持不同操作系统，如 Ubuntu、Windows 和 macOS，并允许 AI 通过互动学习来完成任务。

2026/02/18 16:21:5937

#OSWorld #OSWorld-Verified

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准

AIME 2026 是基于美国数学邀请赛（American Invitational Mathematics Examination）2026 年问题的评测基准，用于评估大语言模型在高中水平数学推理方面的表现。该基准包含 15 个问题，覆盖代数、几何、数论和组合数学等领域。模型通过生成答案并与标准答案比较来计算准确率。

2026/02/13 15:05:25113

#AIME #AIME2026

阿里发布第二代图像大模型：Qwen-Image-2.0，融合文本生成图片、图片编辑为一体全球目前排名第三！中文渲染很棒！但不开源~

阿里发布第二代图像大模型：Qwen-Image-2.0，融合文本生成图片、图片编辑为一体全球目前排名第三！中文渲染很棒！但不开源~

就在刚刚，阿里宣布发布Qwen-Image-2.O模型，该模型是Qwen Image系列的最新版本，这个模型综合了此前的文本生成图片和图片编辑的能力，在文本渲染、生成PPT图片方面大幅提升。不过相比较之前的Qwen Image系列，该版本的模型并没有开源，目前在官网可以免费使用。

2026/02/10 17:48:25269

#Qwen #Qwen-Image-2

AA-LCR：大模型长上下文推理能力的权威评测基准（Artificial Analysis Long Context Reasoning）是什么？包含哪些任务？如何测试大模型超长上下文能力？

AA-LCR：大模型长上下文推理能力的权威评测基准（Artificial Analysis Long Context Reasoning）是什么？包含哪些任务？如何测试大模型超长上下文能力？

AA-LCR 是由独立 AI 评测机构 Artificial Analysis 开发的基准测试集，旨在真实模拟知识工作者（如分析师、研究员、律师）处理海量文档的场景。

2026/02/07 09:24:21151

#大模型评测 #大模型评测基准

OSWorld-Verified：大模型“用电脑”能力的权威评测基准

OSWorld-Verified：大模型“用电脑”能力的权威评测基准

OSWorld（Open Source World）是首个真正基于真实操作系统环境的多模态Agent评测平台。它不同于传统的模拟环境（如MiniWoB或WebArena），而是直接在完整的Ubuntu、Windows和macOS系统中运行，让AI代理通过截图观察、鼠标键盘操作来完成任务。

2026/02/06 08:38:21167

#OSWorld-Verified #大模型评测基准

GDPval-AA：大模型在真实世界任务中的“经济价值”评测基准

GDPval-AA：大模型在真实世界任务中的“经济价值”评测基准

OpenAI在2025年9月推出的GDPval基准，将焦点转向“具有经济价值的真实任务”，而第三方独立机构Artificial Analysis在此基础上开发的GDPval-AA，进一步引入了agentic（代理）能力评估和ELO排行榜，成为当前最受关注的“实用性”评测基准之一。

2026/02/06 08:34:58178

#GDPval-AA #大模型评测基准

阿里开源Qwen3-Coder-Next：专为Agentic Coding而生的80B MoE的编程大模型，激活参数仅3B！

阿里开源Qwen3-Coder-Next：专为Agentic Coding而生的80B MoE的编程大模型，激活参数仅3B！

阿里开源了全新一代编程大模型Qwen3-Coder-Next，该模型是基于Qwen3-Next-80B-A3B-Base模型后训练得到，总参数规模800亿，激活参数仅30亿。也就是说，这个模型的推理速度基本和3B这种小规模参数差不多，但是它的评测结果，特别是在编程方面的评测与DeepSeek V3.2的水平差不多。

2026/02/04 08:50:53302

#Qwen3-Coder-Next #编程大模型

AI编码领域的转变：Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

AI编码领域的转变：Karpathy的2026年反思与Boris Cherny的Claude Code团队回应

Andrej Karpathy预测2026年AI将主导软件编码工作流，带来巨大效率提升，但可能引发低质代码泛滥（slopacolypse）。Anthropic的Boris Cherny以Claude Code团队实践回应，展示近100% AI生成代码、通用工程师招聘策略，以及通过模型迭代有效控制质量问题。

2026/01/29 08:47:14253

#AIAgent #AndrejKarpathy

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

重磅！Kimi K2.5发布，依然免费开源！原生多模态MoE架构，全球最大规模参数的开源模型之一，官方评测结果比肩诸多闭源模型！可以驱动100个子Agent执行！

2026年1月27日，月之暗面（Moonshot AI）发布新一代模型Kimi K2.5。根据官方说明，这是Kimi K2的后续版本，目前已通过Kimi.com网页端和App向用户推送。该模型同步上线Kimi API开放平台及编程助手Kimi Code，模型权重与相关代码也在Hugging Face开源。

2026/01/27 17:27:05696

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程（Claude Code这样的工具）：AI Agent正在重塑编码工作流，2026年的软件工程大变革

看特斯拉前AI总监、OpenAI前知名研究员Andrej Karpathy如何看AI大模型编程（Claude Code这样的工具）：AI Agent正在重塑编码工作流，2026年的软件工程大变革

本文整理了 Andrej Karpathy 在 2025 年底关于 AI Agent 编程的核心观点。基于其使用 Claude Code 等大模型的真实工程经验，Karpathy 认为软件工程正从“手动编码”转向“由 AI Agent 执行、人类定义目标与约束”的新范式。文章同时分析了 AI Agent 在效率提升之外带来的工程风险、技能退化与内容质量问题，并指出 2026 年将是行业系统性消化 AI Agent 能力的关键一年。

2026/01/27 08:49:43321

#AIAgent #AndrejKarpathy

Clawdbot到底是啥？能做什么？可以替代Claude Cowork吗？我花了 40 小时深扒 Clawdbot：全是干货，包括那些他们没告诉你的真相

Clawdbot到底是啥？能做什么？可以替代Claude Cowork吗？我花了 40 小时深扒 Clawdbot：全是干货，包括那些他们没告诉你的真相

最近这几天，如果你的 X (Twitter) 首页被 Clawdbot 刷屏了，不用惊讶，主要是太火了。但是这个软件的使用有一定门槛，而且争议比较大。X上有一位博主分享了他对这个东西的看法和使用经验，挺详细的，对于想了解Clawdbot是啥的，这个文章不错。大家看也可以从这个文章看到Clawdbot能做什么，和Cowork对比有啥优点和缺点

2026/01/26 13:21:321,272

#Clawdbot #Cowork

阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS：总共5个模型，最小的仅0.6B参数规模，最大1.8B参数

阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS：总共5个模型，最小的仅0.6B参数规模，最大1.8B参数

就在刚刚，阿里开源了全新的语音合成大模型Qwen3-TTS系列！本次开源的语音合成模型共5个版本，最小的仅0.6B参数规模，最大的模型参数也就1.7B，基本上手机端都可以运行。此次发布不仅在性能上宣称超越了许多商业级闭源模型（如 OpenAI 的 GPT-4o-Audio 和 ElevenLabs），更重要的这应该是阿里通义千问团队首次开源语音合成系列大模型。

2026/01/22 22:22:53623

#Qwen #Qwen3-TTS

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准

MMEB（Massive Multimodal Embedding Benchmark）是一个用于评估多模态嵌入模型的基准测试框架。该基准最初聚焦于图像-文本嵌入，并在后续版本中扩展到文本、图像、视频和视觉文档输入。MMEB通过收集多样化数据集，提供一个统一的评估平台，用于测试模型在分类、检索和其他任务上的性能。

2026/01/09 09:43:40404

#多模态嵌入评测 #大模型评测

大模型工具使用的三次进化：从 Function Calling 到程序化编排

大模型工具使用的三次进化：从 Function Calling 到程序化编排

本文系统梳理了大模型工具使用（Tool Use）的三个演进阶段：循环式工具选择（Function Calling）、计划驱动执行（Plan-then-Execute）和程序化工具编排（Programmatic Tool Calling）。从 OpenAI Function Calling 的单次调用模式，到支持并行调度的计划-执行范式，再到最新的代码驱动编排方式，工具使用正在从"逐步决策"走向"计划驱动、代码驱动"。

2026/01/08 22:08:57498

#AIAgent #FunctionCalling

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

为什么大模型企业都在强调可以连续工作XX小时的Agent和模型？长时运行Agent解析（Long-Running Agents）

AI Agent 的一个关键趋势正在浮现：从“快速回答问题”转向“长时间稳定执行复杂任务”。本文系统梳理了为什么 Anthropic、OpenAI 等企业开始强调“长时运行 Agent”，并解释其真实含义并非模型一直思考，而是通过作业化、异步执行、可恢复运行和动态上下文管理，实现跨会话完成复杂目标。文章深入对比了长时 Agent 与传统脚本化 LLM Loop 的本质差异，分析其在自治能力、上下文工程、耐久执行与治理上的核心价值，并总结构建长时运行 AI Agent 所需的关键技术等。

2026/01/04 23:01:19557

#AIAgent #Long-RunningAgents

在大模型时代，AI 产品为什么更难复用？AI Agent产品应该如何开发？来自 Manus 的3个工程实践经验

在大模型时代，AI 产品为什么更难复用？AI Agent产品应该如何开发？来自 Manus 的3个工程实践经验

本文基于 Manus 一线工程成员的真实实践，总结并分析了大模型时代 AI 产品在工程与复用层面发生的关键变化。文章并不关注模型参数或算法细节，而是聚焦于真实生产环境中的工程问题：功能交付的责任边界如何变化、为何原型验证比完整规划更重要，以及在 Agent 系统中个人角色与系统边界如何被重新定义。这些经验揭示了一个趋势——在大模型具备“执行能力”之后，AI 产品的可用性越来越依赖工程体系本身，而非模型能力本身。本文适合关注 AI 工程实践、Agent 架构以及大模型落地问题的技术读者参考。

2025/12/28 20:44:13372

#AIAgent经验 #AI产品

Context Arena：长上下文大模型评测基准介绍

Context Arena：长上下文大模型评测基准介绍

Context Arena 是一个专注于评估大语言模型长上下文处理能力的基准平台。它基于 OpenAI 发布的 Multi-Round Coreference Resolution (MRCR) 数据集，提供交互式排行榜，用于比较不同模型在复杂长对话中的信息检索和理解性能。该基准强调模型在长上下文下的实际表现，避免单纯依赖训练数据记忆。

2025/12/27 10:42:00532

#ContextArena #大模型评测

2025年的大模型训练和大模型应用与之前有什么差别？来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的年度总结：2025年6个大模型不一样的地方

2025年的大模型训练和大模型应用与之前有什么差别？来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的年度总结：2025年6个大模型不一样的地方

昨天，Karpathy 发布了《2025 LLM Year in Review》，对过去一年大模型领域发生的结构性变化进行了深度复盘。在这篇总结中，他不再纠结于具体的模型参数，而是将目光投向了推理范式的演进、Agent 的真实形态以及一种被称为“Vibe Coding”的新型开发模式。

2025/12/21 21:10:17677

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的介绍：为什么 2025 年，大模型训练的重心开始发生迁移？

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的介绍：为什么 2025 年，大模型训练的重心开始发生迁移？

过去几年，大语言模型的训练路线相对稳定：更大的模型、更长的预训练、更精细的指令微调与人类反馈对齐。这套方法在很长一段时间内持续奏效，也塑造了人们对“模型能力如何提升”的基本认知。但在 2025 年前后，一种并不算新的训练思路突然被推到台前，并开始占据越来越多的计算资源与工程关注度，这就是**基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards，RLVR）**。

2025/12/21 15:14:29828

Minion Skills: Claude Skills的开源实现

Minion Skills: Claude Skills的开源实现

本文介绍了 Claude 最近推出的 Skills 系统，以及作者在 Minion 框架中实现的一个完全开源的版本。Skills 的核心思路是让 AI Agent 在需要时再加载对应的专业能力，而不是一开始就把所有工具和知识都塞进上下文，从而缓解上下文窗口有限、成本高、响应慢的问题。

2025/12/17 22:06:31729

#Agent技巧 #ClaudeSkills

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

智谱发布 GLM-ASR（闭源）与开源 1.5B GLM-ASR-Nano-2512：针对中文与方言场景的语音识别尝试

就在刚才，智谱推出了两个语音识别模型：闭源的 GLM-ASR 和开源的 GLM-ASR-Nano-2512。与过去他们更多关注通用大模型或多模态模型不同，这次聚焦的是语音转文字（ASR）任务，尤其面向中文语境、方言与复杂环境。以下是对这两款模型已知公开资料的整理与分析。

2025/12/10 11:10:41734

大模型到底能否真正提升写代码效率？Anthropic 内部 20 万条数据首次公开大模型在真实代码工作流中的表现

大模型到底能否真正提升写代码效率？Anthropic 内部 20 万条数据首次公开大模型在真实代码工作流中的表现

大模型究竟能否真正提升工程师的编码效率？Anthropic 最近发布的一份重量级内部研究给出了少见的、基于真实工程环境的数据答案。研究覆盖 132 名工程师、53 场深度访谈，以及 20 万条 Claude Code 使用记录，展示了 AI 在软件工程中的实际作用：从生产力显著提升（人均合并 PR 数同比增长 67%）、任务空间扩张（27% 的 Claude 工作原本不会被执行），到工程师技能版图、协作方式与职业路径的深刻变化。与此同时，研究也揭示了技能萎缩、监督负担、工作流变化等新挑战。这是一份罕见的“

2025/12/04 22:37:32696

#大模型应用 #大模型技术

Ilya Sutskever访谈深度解读：关于大模型的瓶颈、人类智能的优势、模型泛化不足以及5-20年后超级智能会出现的真正问题

Ilya Sutskever访谈深度解读：关于大模型的瓶颈、人类智能的优势、模型泛化不足以及5-20年后超级智能会出现的真正问题

这篇文章基于 Dwarkesh Patel 对 SSI 创始人、前 OpenAI 首席科学家 Ilya Sutskever 的长访谈，系统梳理了他对模型泛化、人类智能结构、持续学习、RL 与预训练局限、超级智能路径、对齐策略，以及 AI 未来经济与治理的整体判断。文章不仅整理了核心观点，也结合具体原文展开解读，呈现 Ilya 如何从“人类为何能泛化”这一根问题出发，重新思考下一代智能系统应当如何构建。

2025/12/03 08:19:14352

#大模型应用 #大模型技术

Tool Decathlon：大模型工具使用能力基准测试

Tool Decathlon：大模型工具使用能力基准测试

Tool Decathlon（简称 Toolathlon）是一个针对语言代理的基准测试框架，用于评估大模型在真实环境中使用工具执行复杂任务的能力。该基准涵盖32个软件应用和604个工具，包括日常工具如 Google Calendar 和 Notion，以及专业工具如 WooCommerce、Kubernetes 和 BigQuery。它包含108个任务，每个任务平均需要约20次工具交互。该框架于2025年10月发布，旨在填补现有评测在工具多样性和长序列执行方面的空白。通过执行式评估，该基准提供可靠的性能指

2025/12/02 14:40:28328

#大模型工具使用 #大模型评测

上一页

12...15

专题合集

RAG（检索增强生成）Long Context 长上下文 AI Agent 实践

最热博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
层次狄利克雷过程简介（Hierarchical Dirichlet Process， HDP）
5月3日，2个重磅开源的AI模型发布：Replit代码补全大模型和LLaMA复刻版OpenLLaMA发布
GPT-4在11月份以来变懒的原因可能已经找到：大模型可能会在节假日期间变得不愿意干活，工作日期间却更加高效
大模型驱动的自动代理（AI Agent）：将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点
自己制作电影不是梦，视频生成大模型的巨大进步！OpenAI发布第二代视频生成大模型Sora2：物理规律符合率达到88%，可以同步生成音频！物理真实感与声音控制全面突破
基于GPU的机器学习Python库——RAPIDS简介及其使用方法

需要多少GPU显存才能运行预训练大语言模型？大语言模型参数规模与显存大小的关系估算方法~