最新AI大模型咨询与技术解读——来自DataLearnerAI

【辟谣，该数据是预测】重磅！疑似GPT-5评测结果泄露，超过当前所有模型评分，人类最后难题得分56.6，比当前最好模型还要高27%，大幅超过Gemini 2.5 Pro，Grok 4 Heavy等

刚刚，X平台疑似泄露出GPT-5的评测结果，共四项评测结果，均排名第一。根据泄露的信息，GPT-5的评测包含2个不同的版本，分别是基础版本的GPT-5以及带推理模式的GPT-5 Reasoning。各项评测结果均大幅超越当前现有其它模型，都是第一！且都是断档领先！

2025/07/14 11:56:22 阅读 524

GPT/GPT-5/GPT-5Reasoning/OpenAI

Kimi开源K2大模型：全球首个开源可商用的1万亿参数规模大模型，MoE架构，评测结果与DeepSeekV3相当，但模型文件有1TB！

Kimi K2是由Moonshot AI最新推出的旗舰级大模型，首次将开放Agentic Intelligence（自主代理智能）与强大工具调用能力有机整合。它不仅在知识推理、数学、代码等传统“非思维模型”任务上展现出全球领先的能力，还特别针对一系列实际Agentic（自动决策与操作型）任务进行了深度优化。在业内，这代表AI模型正从“只会答题”向“能自主完成复杂任务”转变。K2模型完全开源，可免费商用授权。

2025/07/12 09:36:27 阅读 769

AIAgent/K2/Kimi/MoE架构

MistralAI发布全新编程大模型：24B开源Devstral Small 1.1在SWE-Bench Verified评分超过旧版DeepSeek R1，编程大模型新的替代

编程领域大模型一直是进展非常快的大模型领域。因为编程能力更强的模型，通常在逻辑思维、工具调用上有更好的表现，在很多领域，特别是Agent领域有很大的应用价值。今天法国人工智能明星公司MistralAI发布了2个全新的编程大模型，分别是Devstral Medium和 Devstral Small 1.1，后者是一个开源的240亿参数的编程大模型。

2025/07/11 20:06:06 阅读 214

DevstralMedium/DevstralSmall/MistralAI/编程大模型/领域大模型

AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

马斯克旗下的xAI公司正式发布Grok4大模型，包含Grok 4和Grok4 Heavy版本，其中Grok4 Heavy是一个Agent系统，在AIME2025（美国的数学邀请赛）得分满分，超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:56 阅读 630

Grok4/Grok4Code/GrokHeavy/xAI/大模型/马斯克

ManusAI产品介绍和特点总结，以及用户对该产品的评价总结，背后的开发团队介绍

Manus AI 是一款尖端的人工智能代理程序，于 2025 年 3 月 6 日正式发布，旨在跨多个领域自主执行复杂任务，弥合人类意图与可操作结果之间的差距。它由 Butterfly Effect 开发，该公司在中国（北京和武汉）以及新加坡（BUTTERFLY EFFECT PTE. LTD.）设有运营机构。以下内容基于截至 2025 年 7 月 5 日的最新信息，涵盖其产品功能、关键技术特点及用户反馈。

2025/07/06 11:07:34 阅读 110

AIAgent/Manus/ManusAI

Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

Grok4是马斯克旗下大模型初创企业xAI的第四代代码，在五月份的时候，马斯克就透露他们马上要发布Grok 3.5模型，六月份的时候说这个模型效果很好，版本号就直接改为4，这中间经过多次波折，最终马斯克说Grok 4将在7月4日之后发布。截止目前，虽然xAI官方没有正式宣布Grok 4，但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。

2025/07/05 11:30:43 阅读 629

Grok4/Grok4Code/xAI/大模型/马斯克

生成式AI重塑新闻分发格局：搜索衰退与流量转移下的出版商和传统网站压力山大！SimilarWeb最新报告解释大模型产品对搜索引擎和内容网站的影响！

今天，SimilarWeb发布了一个全新的报告，描述了自从ChatGPT这种大模型产品发布之后，新闻出版网站的流量下滑严重，并提供了相关的分析。尽管这是针对新闻网站的报告，但是实际上所有的内容网站或者是内容生产者可能都是有影响的。我们基于这份报告进行解读，为大家提供一个参考。

2025/07/03 23:30:07 阅读 218

AI技术影响/大模型应用

智谱AI开源多模态推理大模型GLM-4.1V-Thinking：90亿参数，基于强化学习技术，带推理能力，多模态理解能力接近720亿的Qwen2.5-VL-72B，免费商用授权

GLM-4.1V-Thinking是智谱AI（Zhipu AI）与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代，而是通过一个以“推理为中心”的全新训练框架，旨在将多模态模型的能力从基础的视觉感知，推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

2025/07/02 21:11:34 阅读 346

GLM/多模态大模型/多模态推理大模型/智谱AI

Gemini CLI: Google发布的开源AI智能体，将Gemini 2.5 Pro直接带入你的终端，每天可以免费使用1000次Gemini 2.5 Pro！

今天，Google为全球开发者社区带来了一款激动人心的新工具——**Gemini CLI**。这是一款免费、开源的AI智能体，它将Google当前最强大的模型Gemini 2.5 Pro的能力，直接集成到了开发者最熟悉的命令行界面（CLI）中。对于那些视终端为“家”的开发者来说，这无疑是一个重大的升级。它不仅擅长编码，更是一个可以处理内容生成、问题解决、深度研究和任务管理的多功能本地实用工具。它的发布，旨在为个人开发者提供前所未有的便捷AI体验，非常强大！

2025/06/26 08:46:37 阅读 665

ClaudeCode/GeminiCLI/命令行AI

OpenAI发布最强大模型OpenAI o3-pro：业界评价该模型解决复杂问题效果很好，但是回复一句“Hi”也需要三分钟

OpenAI 正式发布了其最新模型 OpenAI o3-pro，这是其旗舰模型 o3 的专业增强版。o3-pro 专为需要“更长时间思考”的复杂任务而设计，其核心亮点在于极致的可靠性和准确性，尤其在数学、科学和编程等专业领域表现卓越。根据OpenAI引入的全新“4/4可靠性”评测标准，o3-pro 的性能远超前代，OpenAI官方强调o3-pro在处理高难度、高风险任务的能力上实现了质的飞跃。

2025/06/11 08:57:28 阅读 322

GPT/o3-pro/OpenAI/推理大模型

介绍 AIME 2025：评估大型语言模型高级数学推理能力的基准

随着大语言模型（LLM）的发展越来越快，我们需要更好的方法来评估它们到底有多“聪明”，特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具，它专门用来测试当前 AI 在高等数学推理方面的真实水平。

2025/06/08 21:00:56 阅读 1342

AIME/AIME2025/大模型评测/大模型评测基准/评测基准

最近很火的基于人工智能（AI）的vibe coding是什么？它和传统软件编码之间有什么区别？

“Vibe Coding”（氛围编程）是一种新兴的编程范式，强调通过自然语言与人工智能（AI）协作开发软件。该概念由前 OpenAI 研究员 Andrej Karpathy 于 2025 年提出，旨在让开发者沉浸于创作氛围中，利用 AI 的能力，将自然语言描述转化为实际源代码，从而简化编程过程。

2025/06/08 20:56:21 阅读 309

AI应用/AI编程/VibeCoding/大模型编程

DeepSeekAI开源第二代数学理论证明大模型DeepSeek-Prover-V2：让AI帮助数学家证明数学理论！

就在刚才，DeepSeek-AI发布了其新一代自动定理证明模型 **DeepSeek-Prover-V2**。尽管官方暂未公开详细报告，但从其前代模型 **DeepSeek-Prover-V1.5** 的技术细节，以及去年底发布的通用推理模型 DeepSeek-R1 的进展来看，V2 很可能在多个关键能力上取得了实质性提升。

2025/04/30 22:12:22 阅读 360

DeepSeek/DeepSeek-Prover-V2/DeepSeekAI

GPT-4o再度更新：OpenAI发布GPT-4o(2025-03-26)版本模型，大幅提升复杂指令遵循能力，在LM Arena评测超过GPT-4.5，所有类别评测仅次于Gemini 2.5 Pro

OpenAI再次发布GPT-4o更新版本，版本号为GPT-4o(2025-03-26)，本次发布的GPT-4o模型在性能、易用性和协作能力上迎来多项优化，进一步提升了模型的直觉性、创造力和任务执行能力。此次更新聚焦于 STEM 与编程问题解决、指令遵循精度以及自然交互体验，各方面评测进步明显，超过了GPT-4.5。

2025/03/28 08:02:41 阅读 1615

GPT-4o/GPT-4o(2025-03-26)/OpenAI

DeepSeekV3-0324发布：DeepSeek V3基础上大幅升级推理能力和前端网页的美观度，多项评测结果超过GPT-4.5

2025年3月25日，DeepSeekAI低调开源了DeepSeek-V3-0324大模型。作为DeepSeek-V3的重要升级版本，该模型在推理能力、中文写作、前端开发以及功能调用等多个关键领域实现了显著提升。在MMLU Pro等评测上，已经成为了非推理大模型中最强的模型，部分评测结果超过GPT-4.5模型。

2025/03/25 19:07:30 阅读 601

DeepSeekAI/DeepSeekV3/DeepSeekV3-0324/开源大模型

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:50 阅读 530

MistralAI/MistralSmall3.1/多模态大模型/开源大模型

ManusAI技术解析：这真的是Sonnet 3.7+29个工具的简单AI Agent吗？

就在今天，X平台上的一位博主发现可以通过指令让Manus返回它的系统情况，发现ManusAI是Claude Sonnet 3.7+29个工具组成的一个大模型应用系统，也让很多人认为这就是ManusAI的全部，那么这是真的吗？本文结合ManusAI的成员提供的信息为大家介绍。

2025/03/10 22:15:11 阅读 878

AIAgent/Manus/ManusAI/Multi-AgentSystem/多AIAgent

什么时候该使用推理大模型？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

随着DeepSeek R1和OpenAI的o1、o3等推理大模型的发布，我们当前可使用的大模型种类也变多了。但是，推理大模型和普通大模型之间并不是二选一的关系，在不同的问题上二者各有优势。为了让大家更清晰理解推理大模型和普通大模型的应用场景。OpenAI官方推出了一个推理大模型最佳实践指南。描述了二者的对比。本文将总结这份推理大模型最佳实践指南。

2025/03/05 12:53:44 阅读 821

DeepSeekR1/OpenAIo1/推理大模型/推理大模型提示词

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

Cohere For AI 推出了 Aya Vision 系列，这是一组包含 80 亿（8B）和 320 亿（32B）参数的视觉语言模型（VLMs）。这些模型针对多模态AI系统中的多语言性能挑战，支持23种语言。Aya Vision 基于 Aya Expanse 语言模型，并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

2025/03/04 23:24:06 阅读 260

AyaVision/CohereAI/多模态大模型

GPT-4.5：技术细节与用户反馈

OpenAI 于 2025 年 2 月 27 日发布了 GPT-4.5，作为其语言模型系列的最新版本。尽管具体的技术细节因商业保密而未完全公开，基于现有信息和合理推测，DataLearner提供更具体的数据和分析，同时补充更多来自用户的评价。

2025/03/02 13:07:30 阅读 436

GPT-4.5/OpenAI

GPT-4.5发布时间越来越近，OpenAI安卓客户端泄露GPT-4.5即将推出，Pro用户可以做好准备，Plus用户请往后

最近，一张截图在网络上流传，显示OpenAI安卓客户端的应用字符串文件（strings.xml）中出现了关于GPT-4.5的相关描述。这一发现引发了广泛关注，暗示OpenAI可能即将推出其最新的大型语言模型——GPT-4.5。该信息最早由开发者 @bitbor91 发现并分享，截图内容似乎来自ChatGPT安卓客户端的应用资源文件。

2025/02/26 18:49:57 阅读 195

GPT-4.5/OpenAI

Sam Altman宣布未来几周将发布GPT-4.5，几个月后发布GPT-5，未来免费用户也可以无限量使用GPT-5！

三个小时前，Sam Altam在推特上说明了OpenAI未来的大模型路线图。比较重磅的消息是即将在未来几周发布GPT-4.5，并且在几个月后发布GPT-5。

2025/02/13 09:24:11 阅读 375

GPT-4.5/GPT-5/OpenAI/推理大模型

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

最近，随着DeepSeek R1的火爆，推理大模型也进入大众的视野。但是，相比较此前的GPT-4o，推理大模型的区别是什么？它适合什么样的任务？推理大模型是如何训练出来的？很多人并不了解。本文将详细解释推理大模型的核心内容。

2025/02/08 18:05:03 阅读 3266

DeepSeekR1/OpenAIo1/推理大模型/纯强化学习大模型

20条关于DeepSeek的FAQ解释DeepSeek发布了什么样的模型？为什么大家如此关注这些发布的模型？他们真的绕过CUDA限制，打破了Nvidia的护城河了吗？

DeepSeekAI最近发布的几个模型，如DeepSeek V3、DeepSeek R1等引起了全球的广泛关注和讨论，特别是低成本训练出高质量模型之后，引起了很多的争论。引起了大家对OpenAI、英伟达等公司未来的质疑。然而，对于DeepSeekAI的模型为什么引起了如此广泛的关注，以及大家讨论的核心内容是什么，很多人并不是很清楚。本文基于著名的独立科技行业分析师Ben Thompson的总结，配合DataLearnerAI的分析，为大家总结DeepSeek引起的全球讨论。

2025/02/02 17:33:13 阅读 1030

DeepSeekAI/DeepSeekR1/DeepSeekV3/OpenAIo1/推理大模型

最新博客