人工智能与大模型最新资讯与技术博客

大模型评测的新标杆：超高难度的“Humanity’s Last Exam”（HLE）介绍

近年来，大语言模型（LLM）的能力飞速提升，但评测基准的发展却显得滞后。以广泛使用的MMLU（大规模多任务语言理解）为例，GPT-4、Claude等前沿模型已能在其90%以上的问题上取得高分。这种“评测饱和”现象导致研究者难以精准衡量模型在尖端知识领域的真实能力。为此，Safety for AI和Scale AI的研究人员推出了Humanity’s Last Exam大模型评测基准。这是一个全新的评测基准，旨在成为大模型“闭卷学术评测的终极考验”。

2025/02/03 19:12:29 阅读 2116

HLE/大模型评测/大模型评测基准/评测基准

20条关于DeepSeek的FAQ解释DeepSeek发布了什么样的模型？为什么大家如此关注这些发布的模型？他们真的绕过CUDA限制，打破了Nvidia的护城河了吗？

DeepSeekAI最近发布的几个模型，如DeepSeek V3、DeepSeek R1等引起了全球的广泛关注和讨论，特别是低成本训练出高质量模型之后，引起了很多的争论。引起了大家对OpenAI、英伟达等公司未来的质疑。然而，对于DeepSeekAI的模型为什么引起了如此广泛的关注，以及大家讨论的核心内容是什么，很多人并不是很清楚。本文基于著名的独立科技行业分析师Ben Thompson的总结，配合DataLearnerAI的分析，为大家总结DeepSeek引起的全球讨论。

2025/02/02 17:33:13 阅读 1030

DeepSeekAI/DeepSeekR1/DeepSeekV3/OpenAIo1/推理大模型

OpenAI 未来计划曝光！Sam Altman 一句话暗示开源 GPT？~Sam在1月31日举办的AMA中问答记录总结

2025年1月31日，OpenAI在Reddit上举办了一场AMA（Ask Me Anything）活动，参与者包括Sam Altman、Mark Chen、Kevin Weil、Srinivas Narayanan、Michelle Pokrass和Hongyu Ren。他们分享了关于模型更新、未来功能、定价策略以及OpenAI对AI和AGI（通用人工智能）的宏观愿景。以下是此次问答的关键内容，并附有相关解释。这里最重要的信息可能是Sam透露认为当前OpenAI的闭源方式可能是历史错误的一方！

2025/02/01 17:19:17 阅读 433

AMA/GPT更新/OpenAI

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

2025/01/30 20:38:31 阅读 734

ArenaHard/ChatbotArena/大模型评测/评测基准

OpenAI开始提供大模型（GPT系列模型）的提示缓存（Prompt Caching）：GPT-4o系列模型输入价格下降一半，访问速度提升80%

在大模型的应用中，处理复杂请求往往伴随着较高的延迟和成本，尤其是当请求内容存在大量重复部分时。这种“慢请求”的问题，特别是在长提示和高频交互的场景中，显得尤为突出。为了应对这一挑战，OpenAI 最近推出了 **提示缓存（Prompt Caching）** 功能。这项新技术通过缓存模型处理过的相同前缀部分，避免了重复计算，从而大幅减少了请求的响应时间和相关成本。特别是对于包含静态内容的长提示请求，提示缓存能够显著提高效率，降低运行开销。本文将详细介绍这项功能的工作原理、支持的模型，以及如何通过合理的提示结

2024/12/18 22:06:07 阅读 409

OpenAI/PromptCaching/大模型推理加速/提示缓存

微软发布第四代Phi系列大模型，140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o，复杂推理能力大幅增强

Phi大语言模型是微软发布的一系列小规模大语言模型，其主要的目标是用较小规模参数的大语言模型达成较大参数规模的大语言模型的能力。就在今天，微软发布了Phi4-14B模型，参数规模仅140亿，但是数学推理能力大幅增强，在多个评测基准上甚至接近GPT-4o的能力。

2024/12/13 22:39:19 阅读 572

Phi/Phi-4/Phi-4-14B/SLMs/小规模参数大语言模型

Google发布第二代Gemini大语言模型，首个登场的Gemini 2 Flash Experimental，评测结果显示其能力已经超越上一代的Gemini 1.5 Pro！

Gemini是谷歌发布的一系列大模型的名称，是谷歌前期大模型Bard产品的替代品。从Gemini 1.0发布开始，每一次发布都获得了不错的反响。今天，Google发布了最新一代的Gemini 2.0模型，首个产品是其参数规模较小的Gemini 2.0 Flash，它的推理速度是Gemini 1.5 Pro的2倍，但是各项评测结果上的表现却超过了Gemini 1.5 Pro。该模型完全免费提供给大家使用。

2024/12/12 22:23:36 阅读 955

Gemini2/Gemini2.0Flash/Gemini2Flash

Meta开源Llama3.3-70B-Instruct模型：大模型后训练的佳作，性能超越4050亿参数规模的Llama3.1-405B大模型！

Llama系列大语言模型一直是开源领域的大模型标杆，Llama3系列大模型自从开源之后一直在不断更新。最早的Llama3模型于2024年4月开源，此后，几乎每个三个月都有一个新版本发布。就在昨天，Meta开源了最新的Llama3.3-70B模型，这是Llama3.3系列目前唯一开源的模型。尽管该模型的参数规模仅仅700亿，但是在多项评测基准上已经超过了4050亿参数规模的Llama3.1-405B，后者是Llama系列模型中参数规模最大的一个，也是业界开源模型中参数规模最高的模型之一。

2024/12/08 22:35:45 阅读 1117

Llama3.3/Llama3.3-70B-Instruct

重磅！OpenAI发布正式版o1模型，推理能力再次提升，且开启商业化使用，每个月200美元不限量使用！

几个小时前，OpenAI开启了今年密集的产品发布时间，本次发布会持续12天，直播12天。几个小时前，第一个发布的产品宣布，那就是OpenAI o1模型的正式版。同时也开启了一个全新的ChatGPT付费计划，即ChatGPT Pro，每个月200美元，可以不限量使用所有模型。本文详细介绍OpenAI o1模型。

2024/12/06 07:35:14 阅读 1090

ChatGPTPro/o1/o1-preview/OpenAIo1

OpenAI的推理大模型o1模型的强有力竞争者！DeepSeekAI发布DeepSeek-R1-Lite-Preview~实测结果令人惊喜！

OpenAI的o1模型被认为是大模型领域中推理能力最强的代表之一，由于其强大的数学逻辑推理能力，被认为是大模型未来的进化方向。而就在2个月之后的11月快结束的时间里，幻方量化旗下人工智能企业DeepSeekAI发布了全新的DeepSeek-R1-Lite-Preview模型，号称是o1模型的有力挑战者。该模型利用了类似的o1的思维链思索过程，推理能力大幅增强。DataLearnerAI将在本文中对该模型进行介绍，并进行几个简单的对比结果测试。结果证明这个模型是非常优秀的！

2024/11/28 13:40:52 阅读 698

DeepSeek-R1-Lite-Preview/DeepSeekAI/o1/OpenAIo1/推理大模型

阿里开源推理大模型QwQ-32B-Preview：开源领域对OpenAI o1模型奋起直追，能力接近o1-mini，超过GPT-4o！

随着OpenAI发布推理大模型o1，专注于推理能力的大模型开始被广泛关注。基于思维链探索的推理大模型也不断涌现。此前，DeepSeekAI与上海人工智能实验室都发布过推理大模型，也展现了很不错的推理能力，虽然DeepSeekAI官方承诺该模型会开源，但是目前还没有发布。今天，阿里开源了一个全新的推理大模型QwQ-32B-Preview，其推理能力在评测结果上超过o1-mini，是目前开源领域最强的推理大模型（也可能是目前唯一）。

2024/11/28 13:40:41 阅读 628

o1/QwQ/QwQ-32B-Preview/推理大模型

AI Agent进展再进一步！Anthropic发布大模型上下文连接访问协议MCP：让任何资源快速变成大模型的工具，突破大模型的能力边界！

最初，大模型的应用主要通过像ChatGPT这样的聊天机器人展现其智能理解能力。随着技术的进步，基于大模型的智能代理（AI Agent）成为突破大模型能力边界的重要方向。这些智能代理能够执行一系列任务、解决问题，并进行决策，具备深刻理解用户需求和自主规划解决方案的能力，并能够根据规划结果，选择和使用各种工具来完成任务。然而，AI Agent系统面临的关键挑战是如何高效地将外部工具、知识、资源等迅速接入大模型，并实现有效利用。尤其是，如何将现有的工具和资源整合进大模型，提升其生产力能力，是一个亟待解决的问题。

2024/11/27 10:41:35 阅读 857

Anthropic/MCP/大模型开放

Claude Artifacts的复制？OpenAI发布ChatGPT协作新组件：Canvas，让你与ChatGPT共同处理写作与编程问题！

在写作和编程中，使用 ChatGPT 帮助用户处理各种复杂任务已变得越来越普遍。然而，这个过程中仍然存在一些挑战，比如上下文追踪不够连贯、实时反馈不足，以及在编程时难以精确地处理错误或优化代码。为此，OpenAI发布了一个新的特新：Canvas，它是为了解决上述问题而设计的一个全新工具，集成了写作、编程和实时协作的功能。

2024/10/27 21:22:05 阅读 183

Artifacts/Canvas/GPT-4o

Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5

2024年10月22日，Anthropic发布了两个新模型：升级版的Claude 3.5 Sonnet和全新的Claude 3.5 Haiku。升级版的Claude 3.5 Sonnet在保持原有价格和速度的基础上，实现了全面性能提升，尤其在编码领域取得了显著进步。新推出的Claude 3.5 Haiku则以与Claude 3 Haiku相同的成本和类似的速度，在多个评测中达到了与Claude 3 Opus相当的性能水平。

2024/10/27 21:21:21 阅读 883

Anthropic/Claude/Claude3/Claude3.5-Haiku/Claude3.5-Sonnet/Claude3.5-SonnetNew

OpenAI最新的推理大模型o1与GPT-4o有什么区别？o1一定比o1 mini更强吗？一文总结OpenAI对o1模型的官方答疑

OpenAI的o1模型是当前最强大的具有超强推理能力的大语言模型。但是，o1模型本身的能力如何，o1版本和o1-mini版本模型的差异在哪等似乎都很不清晰。为此，OpenAI在Twitter上举办了一次AMA（Ask me anything）活动，解答了很多大家关心的问题。在这篇博客中，我们根据这个讨论结果总结了一下其中比较重要的信息供大家参考。

2024/09/16 19:37:21 阅读 5262

o1/o1-mini/o1-preview/OpenAI/Q*/推理大模型

重磅！OpenAI发布最强推理模型“OpenAI o1”(代号草莓），大模型逻辑推理能力大幅提升，官方宣称超越部分人类博士水平！

OpenAI发布了一个全新的针对逻辑推理优化的大语言模型o1模型。官方宣称其推理能力相比较当前的大语言模型（GPT-4o）有了大幅提升。OpenAI宣称o1模型在编程竞赛问题（Codeforces）中排名第89百分位，在美国数学奥林匹克（AIME）的资格赛中位列美国前500名，并且在物理、生物和化学问题的基准测试（GPQA）上超越了人类博士水平的准确率。

2024/09/13 07:37:51 阅读 1188

GPT-4o/o1/OpenAI/OpenAIo1/思维链

如何让大模型（GPT）按照特定的JSON格式输出？OpenAI给出新答案：GPT模型现在可以支持更加友好和精确的格式化JSON输出了！

今天，OpenAI官方宣布GPT接口新增一个能力：即支持以更加精确的JSON视图格式返回大模型的结果。比去年的单纯的让GPT输出JSON更加强大，它可以确保模型生成的输出能够完全匹配开发者提供的JSON模式。这种能力是在官方的API接口中增加了`return_format={"type":"json_schema","json_schema": {...}}`参数实现的。但是仅支持最新的模型版本，但这可能是未来的趋势！

2024/08/07 23:24:09 阅读 3683

GPT-4o/JSON输出/OpenAI/大模型格式化输出/大模型输出

重磅！MetaAI开源4050亿参数的大语言模型Llama3.1-405B模型！多项评测结果超越GPT-4o，与Claude-3.5 Sonnet平分秋色！

Llama系列大语言模型是由MetaAI开源的一系列大语言模型。作为最早开源的大语言模型，Llama系列对大模型开源社区的推动有目共睹。而现在MetaAI开源Llama3.1系列模型，其中包括迄今为止最大规模的开源大语言模型Llama3.1-405B，参数规模达到了4050亿！其多项评测结果超过GPT-4、GPT-4o模型，与Claude3.5-Sonnet几乎有来有回！

2024/07/24 00:10:36 阅读 1101

Llama/Llama3.1/Llama3.1-405B/MetaAI

Mistral AI开源全新的120亿参数的Mistral NeMo模型，Mistral 7B模型的继任者！完全免费开源！中文能力大幅增强！

在人工智能领域，Mistral与NVIDIA的合作带来了一个引人注目的新型大模型——Mistral NeMo。这个拥有120亿参数的模型不仅性能卓越，还为AI的普及和应用创新铺平了道路。MistralAI官方博客介绍说该模型是此前开源的Mistral 7B模型的继承者，因此未来可能7B不会再继续演进了！

2024/07/21 22:34:44 阅读 424

Mistral7B/MistralAI/MistralNeMo

如何对向量大模型（embedding models）进行微调？几行代码实现相关原理

大语言模型是通过收集少量专门数据对模型的部分权重进行更新后得到一个比通用模型更加专业的模型。但是，当前大家讨论较多的都是语言模型的微调，对于嵌入模型（或者向量大模型）的微调讨论较少。Modal团队的工作人员发布了一个博客，详细介绍了向量大模型的微调工作，本文将其翻译之后提供给大家（原文：https://modal.com/blog/fine-tuning-embeddings ）。

2024/07/21 17:08:45 阅读 3032

bge/RAG/向量大模型/向量大模型微调/微调

重磅！OpenAI发布GPT-4o mini，这是GPT-3.5的替代升级版，价格下降60%，但是更快更强！编程能力甚至超过GPT-4！

就在刚才，OpenAI官方宣布即将推出GPT-4o mini模型，这是一个成本很低的AI大模型，是GPT-3.5的替代版本。OpenAI官方说，该模型最大的特点是很便宜，但是能力更强，因此可以极大提高AI在不同领域的应用。

2024/07/19 03:02:56 阅读 1611

GPT-4/GPT-4omini/OpenAI

传闻OpenAI内部大模型推理能力获得进展，Q*项目进化成Strawberry！并且距离发布时间更近了！

尽管各家大模型技术进展神速，但是在复杂任务的推理上，大模型目前依然较弱。在去年底，各方消息透露，OpenAI内部有一个称为Q\*的项目取得了重大的突破，可以大幅提高大模型的推理能力。但是，几个月过去了，这个当时吸引了大量讨论的项目没有任何信息。直到昨天，Reuters披露了Q\*项目的进展，这个项目已经变为Strawberry！并且距离发布时间更近了！

2024/07/14 19:30:10 阅读 546

OpenAI/Q*/QStar/大模型推理

Anthropic发布Claude3.5-Sonnet模型，超过Claude3系列所有模型的能力，并且支持多模态！

Claude系列模型是Anthropic发布的大模型，一直被认为是最接近GPT-4系列的大模型。2024年3月份，Anthropic发布了Claude3系列，从各方的使用情况看，都接近甚至超过了GPT-4。时隔三个月，Anthropic再次发布全新3.5版本的Claude3.5系列。本次首先发布的是Claude3.5-Sonnet版本。已经支持免费使用。

2024/06/20 23:36:26 阅读 1110

Anthropic/Claude/Claude3/Claude3.5-Sonnet

阿里巴巴开源第二代大语言模型Qwen2系列，最高参数规模700亿，评测结果位列开源模型第一，超过了Meta开源的Llama3-70B！

Qwen系列大语言模型是阿里巴巴开源的大语言模型。最早的Qwen模型在2023年8月份开源，当时只有70亿参数规模模型，随后阿里巴巴不断开源新的模型，最高参数规模达到了700亿，版本也从1.0升级到2024年3月份的1.5，再到今天发布的Qwen2系列。Qwen已经开源了几十个不同参数规模的大模型。此次发布的Qwen2.0系列不仅在评测任务上超过了现有的开源模型，也在实际应用中有非常好的表现。

2024/06/09 21:34:43 阅读 1317

Qwen2/Qwen2-72B/大语言模型/通义千问/阿里巴巴

最新博客