最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

Anthropic发布Claude4，全球最强编程大模型，大幅提升AI Agent系统所需的各项能力，最长可以7小时连续工作，持续工作、工具使用、记忆使用方面大幅提升

2025年5月23日，Anthropic发布了新一代大语言模型Claude 4系列，包括Claude Opus 4和Claude Sonnet 4两个版本。Anthropic的官方博客强调Claude Opus 4是当前全球最强的编程大模型，与传统聚焦于文本生成和知识问答的模型不同，Claude 4明确定位为任务执行引擎和AI Agent系统的核心组件。这次发布不仅仅是性能参数的提升，更代表了Anthropic认为AI模型从"对话助手"向"自主工作伙伴"的根本性转变。

2025/05/25 14:37:31

142

Anthropic/Claude4/ClaudeOpus4/ClaudeSonnet4

重磅！MetaAI开源Llama4系列，全面进入MoE架构时代，本次发布Llama4 Scout和Llama4 Maverick，1000万上下文输入，170亿激活参数，不支持中文！

就在刚刚，MetaAI发布了全新一代Llama4大模型，Llama正式进入多模态和MoE架构时代。本次新发布的是Llama4中的2个模型分别是Llama4 Scout和Llama4 Maverick。这两个模型都是170亿激活参数，但是前者共16个专家，后者有128个专家，因此总的参数量分别达到了1090亿和4000亿！不过根据评测的情况看，即使是4000亿规模170亿激活的模型，也和DeepSeek V3.1（即DeepSeek V3 0324）版本差不多。

2025/04/06 08:41:47

265

Llama4/Llama4Behemoth/Llama4Maverick/Llama4Scout

大模型的多语言能力来自哪里？大模型是否有自己的内部语言？在英文数据集上学习到的知识可以用中文表达出来吗？

最近，Anthropic研究人员通过观察大模型内部运作机制发现了大模型内部可能存在一种与特定语言无关的内部共享区域，它可以把不同语种的输入，在同样的区域进行内部推理，并最终根据语种输出答案。这个现象让我们发现大模型本身理解语言的时候可能与人类类似，拥有高度抽象的内部表示，能够跨越多种语言统一相同的概念。

2025/03/30 18:41:00

326

Anthropic/Claude/大模型原理/大模型多语种

三年后OpenAI再次发布自动语音识别和语音合成大模型（替换Whisper系列）：不开源，仅提供API，英文错字率已经下降到2.46%

2025年3月20日，OpenAI 推出了三款新模型——gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts——标志着自动语音识别 (ASR) 和文本转语音 (TTS) 领域的重要进步。这些模型基于 GPT-4o 架构，旨在为开发人员和用户提高准确性、自定义能力和可访问性，与 OpenAI 对于代理式 AI 系统的更广泛愿景一致。本文提供了对每个模型、其能力、定价、可用性和竞争环境的详细审查，确保技术和非技术受众都能全面理解。

2025/03/21 13:18:49

205

ASR/gpt-4o-transcribe/TTS/whisper

大模型评测基准AIME 2024介绍

2024年，美国数学邀请赛（AIME）成为评估大型语言模型（LLM）数学推理能力的重要基准。AIME是一项备受尊崇的考试，包含15道题，考试时间为3小时，旨在考察美国顶尖高中生在各类数学领域的复杂问题解决能力。

2025/03/11 09:08:22

2745

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

LiveCodeBench：全面的 LLM 代码评测基准基准

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发，是一个先进的评测基准套件，专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力，并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法，LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

2025/03/09 19:55:14

1367

LiveCodeBench/大模型编程评测/大模型评测/大模型评测基准/评测基准

Anthropic的Claude 4即将发布前新功能曝光：带有Thinking模式，且可以看到推理过程

最近，一些未公开但即将发布的内容被曝出，显示出Anthropic正在为其AI模型（Claude）推出一项名为Thinking的新功能。这一功能将极大提升AI在推理和决策时的透明度，允许用户查看AI的思考过程，并提供更长时间的推理分析，帮助用户更好地理解和验证AI的决策逻辑。

2025/03/05 12:51:57

598

Anthropic/Claude4/推理大模型

智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B：图片文本带有中英文混排，指定比例范围内的任意尺寸图像可生成，免费商用授权

智谱AI开源了一个60亿参数规模的文生图大模型CogView4-6B，支持生成的图像中加入文字，文字效果自然融入图像中，且该模型支持支持宽高范围512px至2048px内的任意尺寸图像（有限制，正文解释）。

2025/03/05 12:50:12

201

CogView/CogView4-6B/文本生成图像/文生图大模型

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

Cohere For AI 推出了 Aya Vision 系列，这是一组包含 80 亿（8B）和 320 亿（32B）参数的视觉语言模型（VLMs）。这些模型针对多模态AI系统中的多语言性能挑战，支持23种语言。Aya Vision 基于 Aya Expanse 语言模型，并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

2025/03/04 23:24:06

136

AyaVision/CohereAI/多模态大模型

Anthropic发布Claude 3.7 Sonnet大模型，全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型，评测结果超DeepSeek R1，低于Grok3-Beta Reasoning，免费用户可用

2025年2月25日，Anthropic发布了Claude 3.7 Sonnet大模型，该模型是业界第一个同时支持标准输出和深度推理模式的单一大模型，各项评测相比较Claude Sonnet 3.5大幅提升。特别是代码能力进一步增强。

2025/02/25 14:25:56

344

Anthropic/Claude3.7/Claude3.7Sonnet/推理大模型

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力

短短两年间，AI技术的进步为软件工程带来了新的可能性。然而，这些模型在真实世界的软件工程任务中究竟能发挥多大的作用？它们能否通过完成实际的软件工程任务来赚取可观的收入？为了验证大模型解决真实任务的能力和水平，OpenAI发布了一个全新的大模型评测基准SWE-Lancer来评测大模型这方面的能力。

2025/02/19 21:40:31

144

SWE-Lancer/大模型评测/大模型评测基准

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

2025/02/13 07:54:51

331

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

2025/01/30 20:38:31

412

ArenaHard/ChatbotArena/大模型评测/评测基准

OpenAI开始提供大模型（GPT系列模型）的提示缓存（Prompt Caching）：GPT-4o系列模型输入价格下降一半，访问速度提升80%

在大模型的应用中，处理复杂请求往往伴随着较高的延迟和成本，尤其是当请求内容存在大量重复部分时。这种“慢请求”的问题，特别是在长提示和高频交互的场景中，显得尤为突出。为了应对这一挑战，OpenAI 最近推出了 **提示缓存（Prompt Caching）** 功能。这项新技术通过缓存模型处理过的相同前缀部分，避免了重复计算，从而大幅减少了请求的响应时间和相关成本。特别是对于包含静态内容的长提示请求，提示缓存能够显著提高效率，降低运行开销。本文将详细介绍这项功能的工作原理、支持的模型，以及如何通过合理的提示结

2024/12/18 22:06:07

240

OpenAI/PromptCaching/大模型推理加速/提示缓存

Meta开源Llama3.3-70B-Instruct模型：大模型后训练的佳作，性能超越4050亿参数规模的Llama3.1-405B大模型！

Llama系列大语言模型一直是开源领域的大模型标杆，Llama3系列大模型自从开源之后一直在不断更新。最早的Llama3模型于2024年4月开源，此后，几乎每个三个月都有一个新版本发布。就在昨天，Meta开源了最新的Llama3.3-70B模型，这是Llama3.3系列目前唯一开源的模型。尽管该模型的参数规模仅仅700亿，但是在多项评测基准上已经超过了4050亿参数规模的Llama3.1-405B，后者是Llama系列模型中参数规模最大的一个，也是业界开源模型中参数规模最高的模型之一。

2024/12/08 22:35:45

835

Llama3.3/Llama3.3-70B-Instruct