Search blog

加载中...

DataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

Leaderboards
模型对比
Datasets

资源

Tutorials
Editorial
Tool directory

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款

Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

SWE-bench大模型评测基准介绍：测试大模型在真实软件工程任务中的能力

SWE-bench大模型评测基准介绍：测试大模型在真实软件工程任务中的能力

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

2025/08/11 16:51:522,145

#大模型编程能力 #大模型评测

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

2025/08/11 16:54:151,221

#SWE-Bench #大模型编程能力

大模型评测基准AIME 2024介绍

大模型评测基准AIME 2024介绍

2024年，美国数学邀请赛（AIME）成为评估大型语言模型（LLM）数学推理能力的重要基准。AIME是一项备受尊崇的考试，包含15道题，考试时间为3小时，旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

2025/08/11 16:56:234,765

#SWE-Bench #大模型编程能力

智谱AI发布GLM-4.5V多模态推理模型

智谱AI发布GLM-4.5V多模态推理模型

智谱AI刚刚开源了新一代视觉-语言模型（Vision-Language Model, VLM）——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air（总参数量1060亿，激活参数量120亿），延续GLM-4.1V-Thinking的技术路线，在42项公开视觉多模态基准测试中，在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景，采用Mixture-of-Experts（MoE）架构，并保持开源。

2025/08/11 23:28:48492

#GLM-4.5V #开源大模型

IOI（International Olympiad in Informatics）：从世界顶级算法竞赛到大语言模型的新基准

IOI（International Olympiad in Informatics）：从世界顶级算法竞赛到大语言模型的新基准

在衡量大语言模型（LLM）智能水平的众多方法中，除了常见的常识推理、专业领域测评外，还有一个正在兴起且极具挑战性的方向——算法问题求解。在这一领域，几乎没有哪项比赛能比国际信息学奥林匹克（International Olympiad in Informatics，简称 IOI）更具权威性与含金量。

2025/08/12 14:48:26209

#大模型数学能力评测 #大模型评测

GPT-5 模式与配额全解析：自动与手动 Thinking 的区别、不同用户的使用配额问题等

GPT-5 模式与配额全解析：自动与手动 Thinking 的区别、不同用户的使用配额问题等

GPT-5 在 ChatGPT 中引入了“自动在普通/推理间切换”的机制，但模式命名、配额规则和速率限制让许多用户困惑。本文梳理不同模式的作用、是否计入推理配额、各订阅层的可用性与限制、旧模型的替换规则，并提供三步配额优化策略。特别提示：编码与大上下文任务应优先使用 GPT-5 Thinking（≈196k 上下文），而普通 Chat 模式上下文为 32k。

2025/08/12 22:51:121,996

#ChatGPT #GPT-5

新模型发布：Gemma 3 270M，为特定任务打造的高效工具

新模型发布：Gemma 3 270M，为特定任务打造的高效工具

谷歌开源了其Gemma 3模型系列的新成员——Gemma 3 270M。该模型的设计理念并非追求通用性和大规模，而是专注于为定义明确的特定任务提供一个高效、紧凑的解决方案。其核心价值在于通过微调（fine-tuning）来执行专门化任务。

2025/08/15 09:07:41257

#gemma3 #开源大模型

来自OpenAI官方的GPT-5编码提示词优化实践：6 条“更懂开发者”的提示工程技巧

来自OpenAI官方的GPT-5编码提示词优化实践：6 条“更懂开发者”的提示工程技巧

GPT-5 在指令遵循和推理能力上比前代更强，但也因此更“敏感”：如果规则里有冲突或表述过度强硬，模型往往会卡壳或输出异常。为此，OpenAI 发布了面向开发者的《GPT-5 for Coding》技巧小抄，其中总结了使用 GPT-5 进行编程与代码生成时最实用的六条经验。这些技巧与普通的“写作提示工程”不同，它们专门针对软件开发场景：如何写规则、怎样控制推理强度、如何避免模型“想太多”，以及怎样利用 GPT-5 的新特性把它真正驯化成可靠的结对编程伙伴。本文对这六条技巧逐条进行解释总结。

2025/08/16 21:48:20395

Aider Benchmark：面向代码编辑的大模型评测基准全解析

Aider Benchmark：面向代码编辑的大模型评测基准全解析

Aider 是一个在终端里进行结对编程的开源工具。为评估不同大模型在“按照指令对代码进行实际可落地的编辑”上的能力，Aider 提出并维护了公开基准与排行榜，用于比较模型在无人工干预下完成代码修改任务的可靠性与成功率。该评测已被多家模型提供方在技术说明中引用，用作代码编辑与指令遵循能力的对照指标。

2025/08/20 03:50:12391

#命令行助手 #大模型编程能力

DeepSeek V4没有等到，但是DeepSeekAI把DeepSeek V3升级到DeepSeek V3.1了，小幅更新，但核心架构和参数不变

DeepSeek V4没有等到，但是DeepSeekAI把DeepSeek V3升级到DeepSeek V3.1了，小幅更新，但核心架构和参数不变

就在几个小时前，DeepSeekAI宣布官方的聊天模型从DeepSeek-V3升级到了DeepSeek-V3.1，上下文拓展至128K。虽然，官方目前没有给出这个模型的详细信息，DataLearnerAI已经搜集到很多信息供大家参考。

2025/08/20 04:15:45573

#DeepSeekAI #DeepSeekV3.1

神秘的图片生成和编辑大模型Nano Banana是什么？背后是Google吗？什么时候发布？能否颠覆Adobe

神秘的图片生成和编辑大模型Nano Banana是什么？背后是Google吗？什么时候发布？能否颠覆Adobe

最近，一个代号 “Nano Banana” 的神秘图像生成与编辑大模型突然在社交网络上掀起风暴。与之前所有模型截然不同，它似乎拥有「记忆面孔」的魔法：无论角度、光影如何变化，人物的面容始终一致；它还能读懂照片里的故事，精准捕捉场景氛围，并服从多步骤、高复杂度的指令。然而，它像幽灵一样没有身世——没有官方文档，没有作者署名，甚至没有一行技术白皮书。极致的神秘感与惊人的效果形成巨大反差，像磁铁般吸住了整个社区的目光：它究竟出自谁手？能力边界到底在哪儿？本文会介绍一下这个模型当前已知的信息，以及如何使用。

2025/08/24 16:43:541,076

#NanoBanana #图片生成大模型

Claude Code 的独特体验：Claude Code 为什么这么好用？从设计细节看下一代 LLM Agent 的范式

Claude Code 的独特体验：Claude Code 为什么这么好用？从设计细节看下一代 LLM Agent 的范式

近年来，AI 编码助手与 Agent 框架层出不穷，从 Github Copilot 到 Cursor，再到各种基于 LangChain 的多代理方案。然而，真正让开发者普遍感受到“顺手”与“愉快”的，却是 Claude Code（简称 CC）。它的特别之处，并不在于引入了复杂的新架构，而恰恰在于其极简而精心打磨的设计选择。 Claude模型本身的强大毋庸置疑，但是即使是相同的模型，Claude Code体验也比其它的Agent似乎体验更好。本文基于2025年8月21日vivek公开发布的一篇英文博客，

2025/08/24 23:39:17496

#Claude #ClaudeCode

断层领先！Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview，火爆网络的Nano Banana背后真正的模型发布！

断层领先！Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview，火爆网络的Nano Banana背后真正的模型发布！

就在刚才，Google宣布发布最新的图像生成和编辑大模型Gemini 2.5 Flash Image Preview。该模型就是最近火爆网络的Nana Banana背后真正的模型。该模型在图片生成和编辑方面目前是断层领先，效果非常好。

2025/08/27 01:22:47477

#Gemini2.5FlashImage #图像生成大模型

语音大模型正式进入Voice Agent时代！OpenAI发布GPT Realtime模型，可以直接调用接口和工具进行实时语音对话！

语音大模型正式进入Voice Agent时代！OpenAI发布GPT Realtime模型，可以直接调用接口和工具进行实时语音对话！

就在几个小时前，OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech（S2S）模型，能通过单个模型与 API完成从音频输入到音频输出的全流程，显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径，解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。

2025/08/29 04:27:25379

#GPTRealtime #OpenAI

大语言模型（Large Language Model）为什么会“幻觉”？OpenAI最新发布揭示大模型幻觉根源与解决路径

大语言模型（Large Language Model）为什么会“幻觉”？OpenAI最新发布揭示大模型幻觉根源与解决路径

尽管人工智能语言模型的能力日益强大，但它们依然面临一个棘手的问题：“幻觉”（Hallucination）。所谓幻觉，指的是模型自信地生成一个事实上错误的答案。OpenAI 的最新研究论文指出，这一现象的根源在于标准的训练和评估方式实际上在鼓励模型“猜测”而非“承认不确定性”。

2025/09/06 03:41:27421

#大模型幻觉

Moonshot AI发布Kimi K2-Instruct-0905：256K上下文长度加持，全面升级的开放式智能体模型

Moonshot AI发布Kimi K2-Instruct-0905：256K上下文长度加持，全面升级的开放式智能体模型

今日，Moonshot AI正式发布了最新旗舰模型 Kimi K2-Instruct-0905。这是一款基于混合专家架构（MoE）的前沿大语言模型，总参数规模达到 1万亿，激活参数为 320亿，不仅在编码智能上实现了断层式提升，更凭借 256K超长上下文成为当前同类产品中的佼佼者。官方称其在公共基准和真实智能体任务上的表现均有显著突破，已对标并超越部分国际顶尖模型。

2025/09/06 04:23:04480

Google DeepMind 发布 EmbeddingGemma：面向端侧的多语言开源向量模型（308M），小体量也能打

Google DeepMind 发布 EmbeddingGemma：面向端侧的多语言开源向量模型（308M），小体量也能打

EmbeddingGemma 是基于 Gemma 3 架构打造的全新开源多语言向量模型，专为移动端/本地离线应用而生。它以约 308M 参数的紧凑体量，在 RAG、语义搜索、分类、聚类等任务上提供高质量表征，同时将隐私与可用性拉满：无需联网即可在本地生成向量。

2025/09/06 05:02:35348

#EmbeddingGemma #Gemma

OpenAI收入大揭秘：2024年收入40亿美金，2030年预计达到2000亿，年均复合增长超90%！ChatGPT占比将逐年下降！

OpenAI收入大揭秘：2024年收入40亿美金，2030年预计达到2000亿，年均复合增长超90%！ChatGPT占比将逐年下降！

根据TheInformaiton的披露，近期OpenAI更新了他们最新财务预测（截至2025年第三季度）。这份收入预测展示了当前OpenAI的收入情况，并描绘了一幅引人注目的未来图景。与2025年第一季度OpenAI自己的预测相比，新数据不仅上调了收入预期，也揭示了公司因基础设施投入而面临的巨大现金消耗压力。本文将简单解读一下这份数据，包括OpenAI的收入情况，不同产品占比，如ChatGPT的比重等。

2025/09/06 20:21:00796

#ChatGPT #OpenAI

Qwen3家族新成员：阿里发布自动语音识别大模型Qwen3-ASR-Flash，中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro！

Qwen3家族新成员：阿里发布自动语音识别大模型Qwen3-ASR-Flash，中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro！

阿里发布了全新的语音识别大模型Qwen3-ASR-Flash，该模型是Qwen3系列模型中首个语音识别大模型，中英文语音识别错误率低于GPT-4o-transcribe和Gemini 2.5 Pro。不过，该模型目前仅通过API提供，不开源！

2025/09/09 03:31:42772

模型不能停，阿里又又又又要开源新模型：Qwen3-Next-80B-A3B

模型不能停，阿里又又又又要开源新模型：Qwen3-Next-80B-A3B

继阿里刚发布Qwen3-ASR模型之后，Qwen团队又在社区提交了全新的Qwen3-Next代码。这意味着阿里即将开源Qwen3家族的新成员。这个模型最大的特点是架构变化很大，与此前Qwen系列很不一样。

2025/09/10 04:24:021,174

#Qwen3 #Qwen3-Next

大模型速度、效果与价格的完美结合？xAI发布Grok 4 Fast：性能接近Grok 4，成本降 98%，生成速度翻倍！

大模型速度、效果与价格的完美结合？xAI发布Grok 4 Fast：性能接近Grok 4，成本降 98%，生成速度翻倍！

xAI 正式发布 Grok 4 Fast —— 一款以极致性价比与前沿性能为核心卖点的新一代推理模型。相比前代产品，它不仅在推理准确率上几乎与旗舰模型Grok 4等持平，还凭借 40%更高的推理效率和高达98%的成本降低，将高质量智能推理真正带入大众用户和企业应用场景。

2025/09/21 21:09:22448

#Grok4 #Grok4Fast

阿里一次发布3款Qwen大模型：开源的全模态Qwen3-Omni和图像编辑大模型Qwen-Image-Edit-2509和不开源的语音识别大模型Qwen3-TTS

阿里一次发布3款Qwen大模型：开源的全模态Qwen3-Omni和图像编辑大模型Qwen-Image-Edit-2509和不开源的语音识别大模型Qwen3-TTS

几个小时前，阿里一次更新了3个大模型，分别是开源的全模态大模型Qwen3-Omni、开源的图像编辑大模型Qwen3-Image-Edit和不开源的语音识别大模型Qwen3-TTS。本次发布的3个模型均为多模态大模型，可以说阿里的大模型真的是全面开花，节奏很快！

2025/09/23 09:40:47424

#Qwen-Image-Edit #Qwen3-Omni

阿里正式开源最强视觉理解大模型Qwen3-VL：关键评测基准超Gemini 2.5 Pro，支持针对视觉输入进行推理，甚至可以理解3D场景

阿里正式开源最强视觉理解大模型Qwen3-VL：关键评测基准超Gemini 2.5 Pro，支持针对视觉输入进行推理，甚至可以理解3D场景

今日，QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型，在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线，并提供 Instruct 和 Thinking 两个版本，前者在视觉感知上全面对标并超过 Gemini 2.5 Pro，后者则在多模态推理基准上创下新纪录，成为开源阵营的最强视觉理解大模型。

2025/09/24 08:14:19563

如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑：智谱类DeepResearch的大模型产品Zread介绍，GitHub仓库解读神器

如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑：智谱类DeepResearch的大模型产品Zread介绍，GitHub仓库解读神器

智谱AI于2025年7月发布了Zread。这款产品能够利用其大模型能力，结合类似Deep Research的Agent技术，对GitHub项目进行深度解读和问答。其价值在于将强大的模型能力通过优秀的工程化设计，变成了一个真正“好用”的工具。它解决的正是那种“代码就在那里，但我就是看不懂”的尴尬，这种体验是单纯聊天机器人无法替代的。

2025/09/27 20:55:06319

#AIAgent #Zread

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8H5文件简介和使用

Today's Picks

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的介绍：为什么 2025 年，大模型训练的重心开始发生迁移？
后代选择器
在大模型时代，AI 产品为什么更难复用？AI Agent产品应该如何开发？来自 Manus 的3个工程实践经验
一个非常有趣的数据工程师小游戏
DataLearner大模型综合评测对比表！国产大模型与全球最强大模型大比拼：语义理解、数学推理同台竞技，究竟谁更厉害~
大模型泛化能力详解：大模型泛化能力分类、泛化能力来源和泛化研究的方向
深度学习技术之池化（Pooling）

UWMadison前统计学教授详解大模型训练最重要的方法RLHF，RLHF原理、LLaMA2的RLHF详解以及RLHF替代方法