人工智能与大模型最新资讯与技术博客

MiniMax-M1与其它模型在不同评测上的对比结果

2025/06/17 13:52:07 阅读 190

法国人工智能初创企业MistralAI发布首个推理模型Magistral：纯RL训练，多语言能力出色，推理速度很快，Magistral Small (24B)版本免费开源，但面对Qwen3和DeepSeek稍显乏力

Mistral AI今天发布了其首个专注于推理能力的系列模型——**Magistral**。这次发布包含两个核心模型：旗舰模型`Magistral Medium`和已开源的`Magistral Small (24B)`。最引人注目的亮点是，Mistral展示了其自研的强化学习（RL）pipeline能够从头开始，仅通过RL训练就将基础模型的推理能力提升到业界顶尖水平，而无需依赖任何其他预先存在的推理模型进行数据蒸馏。这套技术栈非常强大！

2025/06/11 22:45:43 阅读 306

Magistral/Mistral/推理大模型

OpenAI发布最强大模型OpenAI o3-pro：业界评价该模型解决复杂问题效果很好，但是回复一句“Hi”也需要三分钟

OpenAI 正式发布了其最新模型 OpenAI o3-pro，这是其旗舰模型 o3 的专业增强版。o3-pro 专为需要“更长时间思考”的复杂任务而设计，其核心亮点在于极致的可靠性和准确性，尤其在数学、科学和编程等专业领域表现卓越。根据OpenAI引入的全新“4/4可靠性”评测标准，o3-pro 的性能远超前代，OpenAI官方强调o3-pro在处理高难度、高风险任务的能力上实现了质的飞跃。

2025/06/11 08:57:28 阅读 322

GPT/o3-pro/OpenAI/推理大模型

向量大模型新选择，阿里开源向量大模型Qwen-Embedding和重排序大模型Qwen-Reranker，开源向量检索能力第一名！完全免费开源。

阿里巴巴Qwen团队发布了全新的Qwen3 Embedding系列模型，这是一套基于Qwen3基础模型构建的专用文本向量与重排（Reranking）模型。该系列模型凭借Qwen3强大的多语言理解能力，在多项文本向量与重排任务的Benchmark上达到了SOTA水平，其中8B尺寸的向量模型在MTEB多语言排行榜上排名第一。Qwen3 Reranker模型在多个评测基准上同样大幅超越了现有的主流开源竞品。

2025/06/08 22:01:38 阅读 782

Qwen/Qwen-Embedding/向量大模型/重排序大模型

介绍 AIME 2025：评估大型语言模型高级数学推理能力的基准

随着大语言模型（LLM）的发展越来越快，我们需要更好的方法来评估它们到底有多“聪明”，特别是在处理复杂数学问题的时候。AIME 2025 就是这样一个工具，它专门用来测试当前 AI 在高等数学推理方面的真实水平。

2025/06/08 21:00:56 阅读 1342

AIME/AIME2025/大模型评测/大模型评测基准/评测基准

最近很火的基于人工智能（AI）的vibe coding是什么？它和传统软件编码之间有什么区别？

“Vibe Coding”（氛围编程）是一种新兴的编程范式，强调通过自然语言与人工智能（AI）协作开发软件。该概念由前 OpenAI 研究员 Andrej Karpathy 于 2025 年提出，旨在让开发者沉浸于创作氛围中，利用 AI 的能力，将自然语言描述转化为实际源代码，从而简化编程过程。

2025/06/08 20:56:21 阅读 309

AI应用/AI编程/VibeCoding/大模型编程

Anthropic发布Claude4，全球最强编程大模型，大幅提升AI Agent系统所需的各项能力，最长可以7小时连续工作，持续工作、工具使用、记忆使用方面大幅提升

2025年5月23日，Anthropic发布了新一代大语言模型Claude 4系列，包括Claude Opus 4和Claude Sonnet 4两个版本。Anthropic的官方博客强调Claude Opus 4是当前全球最强的编程大模型，与传统聚焦于文本生成和知识问答的模型不同，Claude 4明确定位为任务执行引擎和AI Agent系统的核心组件。这次发布不仅仅是性能参数的提升，更代表了Anthropic认为AI模型从"对话助手"向"自主工作伙伴"的根本性转变。

2025/05/25 14:37:31 阅读 479

Anthropic/Claude4/ClaudeOpus4/ClaudeSonnet4

MMMU基准：多模态多学科复杂推理能力的权威评估体系

大规模多学科多模态理解与推理基准（MMMU）于2023年11月推出，是一种用于评估多模态模型的复杂工具。该基准测试人工智能系统在需要大学水平学科知识和深思熟虑推理的任务上的能力。与之前的基准不同，MMMU强调跨多个领域的先进感知和推理，旨在衡量朝专家级人工智能通用智能（AGI）的进展。

2025/05/05 21:48:00 阅读 430

MMMU/多模态评测/大模型多模态能力/大模型评测/大模型评测基准

微软开源140亿参数规模的Phi-4推理版本大模型：多项评测结果超过OpenAI o1-mini，单张4090可运行，完全免费开源

微软发布了全新的Phi-4推理模型系列，是小型语言模型(SLM)在复杂推理能力上的一种新的尝试。本次发布包含三个不同规模和性能的推理模型，分别是Phi-4-reasoning（140亿参数）、Phi-4-reasoning-plus（增强版140亿参数）和Phi-4-Mini-Reasoning（38亿参数）。这三款模型尽管参数规模远小于当前主流大型语言模型，却在多项推理基准测试中展现出与甚至超越大型模型的能力。

2025/05/01 22:11:00 阅读 381

Phi-4/Phi-4-reasoning/phi系列/微软/推理大模型

DeepSeekAI开源第二代数学理论证明大模型DeepSeek-Prover-V2：让AI帮助数学家证明数学理论！

就在刚才，DeepSeek-AI发布了其新一代自动定理证明模型 **DeepSeek-Prover-V2**。尽管官方暂未公开详细报告，但从其前代模型 **DeepSeek-Prover-V1.5** 的技术细节，以及去年底发布的通用推理模型 DeepSeek-R1 的进展来看，V2 很可能在多个关键能力上取得了实质性提升。

2025/04/30 22:12:22 阅读 360

DeepSeek/DeepSeek-Prover-V2/DeepSeekAI

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

阿里巴巴刚刚开源了第三代千问大模型，Qwen3系列包含了8个不同参数规模的大模型，最大达到2350亿参数规模，最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本，即Qwen3可以根据输入问题的情况自动选择是否进行推理。

2025/04/29 08:59:57 阅读 1137

Qwen3/Qwen3-0.6B/Qwen3-30B-A3B/千问大模型/阿里巴巴

谷歌发布新一代大模型Gemini 2.5 Flash，成本、速度和性能的最优均衡，同时支持推理和非推理模式，评测结果超Sonnet 3.7

Gemini系列是Google的大模型品牌，2025年3月25日，Google发布了Gemini 2.5 Pro版本，这是谷歌发布的Gemini 2.5系列的第一个模型，参数规模较大，但是在多项评测结果上获得了全球最优的效果，Gemini 2.5 Pro成本比较高，时延也比较大，20天之后，谷歌又发布了Gemini 2.5 Flash模型，是性能、成本和效果的最佳均衡模型。

2025/04/21 13:21:24 阅读 612

Gemini/Gemini2.5/Gemini2.5Flash/Google大模型/谷歌大模型

重磅！MetaAI开源Llama4系列，全面进入MoE架构时代，本次发布Llama4 Scout和Llama4 Maverick，1000万上下文输入，170亿激活参数，不支持中文！

就在刚刚，MetaAI发布了全新一代Llama4大模型，Llama正式进入多模态和MoE架构时代。本次新发布的是Llama4中的2个模型分别是Llama4 Scout和Llama4 Maverick。这两个模型都是170亿激活参数，但是前者共16个专家，后者有128个专家，因此总的参数量分别达到了1090亿和4000亿！不过根据评测的情况看，即使是4000亿规模170亿激活的模型，也和DeepSeek V3.1（即DeepSeek V3 0324）版本差不多。

2025/04/06 08:41:47 阅读 459

Llama4/Llama4Behemoth/Llama4Maverick/Llama4Scout

大模型的多语言能力来自哪里？大模型是否有自己的内部语言？在英文数据集上学习到的知识可以用中文表达出来吗？

最近，Anthropic研究人员通过观察大模型内部运作机制发现了大模型内部可能存在一种与特定语言无关的内部共享区域，它可以把不同语种的输入，在同样的区域进行内部推理，并最终根据语种输出答案。这个现象让我们发现大模型本身理解语言的时候可能与人类类似，拥有高度抽象的内部表示，能够跨越多种语言统一相同的概念。

2025/03/30 18:41:00 阅读 538

Anthropic/Claude/大模型原理/大模型多语种

GPT-4o再度更新：OpenAI发布GPT-4o(2025-03-26)版本模型，大幅提升复杂指令遵循能力，在LM Arena评测超过GPT-4.5，所有类别评测仅次于Gemini 2.5 Pro

OpenAI再次发布GPT-4o更新版本，版本号为GPT-4o(2025-03-26)，本次发布的GPT-4o模型在性能、易用性和协作能力上迎来多项优化，进一步提升了模型的直觉性、创造力和任务执行能力。此次更新聚焦于 STEM 与编程问题解决、指令遵循精度以及自然交互体验，各方面评测进步明显，超过了GPT-4.5。

2025/03/28 08:02:41 阅读 1615

GPT-4o/GPT-4o(2025-03-26)/OpenAI

阿里开源全模态大模型Qwen2.5-Omni-7B：支持文本、语音、视频、图像任意模态输入，可以实时生成文本或者语音，文本理解能力接近GPT-4o-mini，开源且免费商用

Qwen2.5-Omni-7B是阿里巴巴发布的一款端到端全模态大模型，支持文本、图像、音频、视频（无音频轨）的多模态输入与实时生成能力，可同步输出文本与自然语音的流式响应。目前，该模型在HuggingFace以Apache2.0协议开源，可以免费商用授权。

2025/03/27 08:18:05 阅读 1003

Qwen2.5-Omni-7B/多模态大模型/实时交互

Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型，最高支持200万上下文，全模态输入，推理大模型，LMArena排名第一

Gemini 2.5 Pro是Google发布的一个新一代大模型，Gemini 2.5 Pro是一个推理大模型，在数学和编程方面有了非常强大的能力，该模型最高支持200万tokens的上下文输入，非常强大！

2025/03/26 08:12:06 阅读 1361

Gemini/Gemini2.5Pro/谷歌/谷歌大模型

DeepSeekV3-0324发布：DeepSeek V3基础上大幅升级推理能力和前端网页的美观度，多项评测结果超过GPT-4.5

2025年3月25日，DeepSeekAI低调开源了DeepSeek-V3-0324大模型。作为DeepSeek-V3的重要升级版本，该模型在推理能力、中文写作、前端开发以及功能调用等多个关键领域实现了显著提升。在MMLU Pro等评测上，已经成为了非推理大模型中最强的模型，部分评测结果超过GPT-4.5模型。

2025/03/25 19:07:30 阅读 601

DeepSeekAI/DeepSeekV3/DeepSeekV3-0324/开源大模型

腾讯发布全新推理大模型Hunyuan-T1：mamba与transformer结合的新架构，与业界模型对比评测结果不错，但是不开源

2025年3月21日，腾讯正式推出其全新大模型**Hunyuan-T1**，该模型基于此前发布的TurboS快速思维基座，首次采用**Hybrid-Transformer-Mamba混合专家架构（MoE）**，在推理效率、长文本处理及资源消耗优化等方面表现还不错。此外，这个新架构也使得Hunyuan-T1速度非常快，模型支持首字符1秒内响应，生成速度达60-80 token/秒，适用于实时交互场景。

2025/03/22 11:43:19 阅读 496

Hunyuan-T1/HunyuanTurboS/推理大模型

三年后OpenAI再次发布自动语音识别和语音合成大模型（替换Whisper系列）：不开源，仅提供API，英文错字率已经下降到2.46%

2025年3月20日，OpenAI 推出了三款新模型——gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts——标志着自动语音识别 (ASR) 和文本转语音 (TTS) 领域的重要进步。这些模型基于 GPT-4o 架构，旨在为开发人员和用户提高准确性、自定义能力和可访问性，与 OpenAI 对于代理式 AI 系统的更广泛愿景一致。本文提供了对每个模型、其能力、定价、可用性和竞争环境的详细审查，确保技术和非技术受众都能全面理解。

2025/03/21 13:18:49 阅读 1147

ASR/gpt-4o-transcribe/TTS/whisper

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

2025/03/20 17:34:13 阅读 2684

GPQA/GPQADiamond/大模型评测/大模型评测基准/评测基准

MistralAI开源240亿参数的多模态大模型Mistral-Small-3.1-24B：评测结果与GPT-4o-mini与Gemma 3 27B有来有回，开源且免费商用，支持24种语言

欧洲大模型之光MistralAI开源了2个全新的多模态大模型，即Mistral-Small-3.1-24B基座版本和指令微调版本。这两个大模型均以Apache2.0协议开源，因此可以完全免费商用。而官方也给出了这个模型在多个评测集上的效果，高于GPT-4o-mini和Gemma 3 27B。因为其参数规模较小，推理速度可以达到每秒150个tokens，同时支持多种语言，是一个非常值得关注的小而美的多模态大模型。

2025/03/18 16:41:50 阅读 530

MistralAI/MistralSmall3.1/多模态大模型/开源大模型

GPQA: 可以防止使用谷歌作弊的研究生级别难度的大模型专业能力评测基准（A Graduate-Level Google-Proof Q&A Benchmark）

研究生级别的 **Google 防查找问答基准测试**（即Graduate-Level Google-Proof Q&A Benchmark，简称 GPQA）是大型语言模型（LLM）面临的最具挑战性的评估之一。GPQA 旨在推动人工智能能力的极限，提供一个严格的测试平台，不仅评估模型的事实记忆能力，还考察其在专业科学领域的深度推理和理解能力。本篇博文将客观介绍 GPQA，涵盖它的起源、目的、组成部分，以及领先的大型语言模型在这个高要求基准测试中的表现。

2025/03/18 15:05:24 阅读 1303

GPQA/GPQADiamond/大模型评测/大模型评测基准

百度在周末发布了2个新一代文心一言大模型，分别是没有推理能力的ERNIE 4.5以及有推理能力的ERNIE X1，即日起可以免费使用

3月16日，百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1，并提前向公众免费开放其智能对话平台“文心一言”（ERNIE Bot）。官方宣称，这两款模型的能力均超过了GPT-4o，但是价格只有GPT-4o的1%，且是DeepSeek的一半。

2025/03/17 14:10:25 阅读 477

ERNIE4.5/ERNIEX1/推理大模型/文心一言/文心大模型

最新博客