统计、机器学习与编程知识的原创博客

OpenAI的推理大模型o1模型的强有力竞争者！DeepSeekAI发布DeepSeek-R1-Lite-Preview~实测结果令人惊喜！

OpenAI的o1模型被认为是大模型领域中推理能力最强的代表之一，由于其强大的数学逻辑推理能力，被认为是大模型未来的进化方向。而就在2个月之后的11月快结束的时间里，幻方量化旗下人工智能企业DeepSeekAI发布了全新的DeepSeek-R1-Lite-Preview模型，号称是o1模型的有力挑战者。该模型利用了类似的o1的思维链思索过程，推理能力大幅增强。DataLearnerAI将在本文中对该模型进行介绍，并进行几个简单的对比结果测试。结果证明这个模型是非常优秀的！

2024/11/28 13:40:52 阅读 702

DeepSeek-R1-Lite-Preview/DeepSeekAI/o1/OpenAIo1/推理大模型

OpenAI最新动向，Sam不再回归OpenAI，与Greg一起进入微软！OpenAI新任CEO由Emmett Shear接任！

OpenAI的董事会上周五开除Sam Altman，同日其创始人Greg Brockman，这件事引起了轩然大波。周末各方消息显示投资人施压董事会，要求召回Sam。本来大家以为Sam重回OpenAI。但是最新消息，OpenAI找了新的CEO，Sam与Greg等人加入微软成立新的团队。

2023/11/20 16:28:11 阅读 695

Greg/OpenAI/Sam

加州大学欧文分校信息技术办公室开放基于GPT-4.5的ZotGPT服务测试

加州大学欧文分校的信息技术办公室（OIT）在2024年一月份推出了一个叫ZotGPT的服务，是利用加州大学欧文分校的合作伙伴（如微软、Google）来提供大语言模型的服务。就是说用一个ZotGPT服务来接入不同服务商提供的大模型，如Gemini、GPT等。目前包含ZotGPT Chat、Copilot和Gemini三大服务，其中最新的ZotGPT Chat服务介绍页面显示，他们现在已经提供GPT-4.5的服务！

2024/03/12 11:15:22 阅读 687

GPT-4.5/OpenAI

Gemini CLI: Google发布的开源AI智能体，将Gemini 2.5 Pro直接带入你的终端，每天可以免费使用1000次Gemini 2.5 Pro！

今天，Google为全球开发者社区带来了一款激动人心的新工具——**Gemini CLI**。这是一款免费、开源的AI智能体，它将Google当前最强大的模型Gemini 2.5 Pro的能力，直接集成到了开发者最熟悉的命令行界面（CLI）中。对于那些视终端为“家”的开发者来说，这无疑是一个重大的升级。它不仅擅长编码，更是一个可以处理内容生成、问题解决、深度研究和任务管理的多功能本地实用工具。它的发布，旨在为个人开发者提供前所未有的便捷AI体验，非常强大！

2025/06/26 08:46:37 阅读 683

ClaudeCode/GeminiCLI/命令行AI

Mixtral-8×7B-MoE模型升级新版本，MistralAI开源全球最大混合专家模型Mixtral-8×22B-MoE

Mixtral-8×7B-MoE是由MistralAI开源的一个MoE架构大语言模型，因为它良好的开源协议和非常好的性能获得了广泛的关注。就在刚才，Mixtral-8×7B-MoE的继任者出现，MistralAI开源了全新的Mixtral-8×22B-MoE大模型。

2024/04/10 11:07:07 阅读 675

MistralAI/Mixtral-8×22B-MoE/Mixtral-8×7B-MoE

ToolTalk：微软发布的一个用以评测大语言模型工具使用能力的评测工具和评测数据集

为了更好地评估大语言模型的工具使用能力，微软的研究人员提出了ToolTalk Benchmark基准测试工具，可以帮助我们更加简单地理解大语言模型在工具使用方面的水准。ToolTalk旨在评估大型语言模型（LLMs）在对话环境中使用工具的能力。这些工具可以是搜索引擎、计算器或Web API等，它们能够帮助LLMs访问私有或最新的信息，并代表用户执行操作。

2024/04/05 21:42:10 阅读 670

RAG/ToolTalk/检索增强生成

一张图看清楚HTML语法的结构和名称

2022/11/05 19:38:35 阅读 666

HTML

OpenAI官网测试GPT-4.5介绍页面，最新Bing搜索泄露GPT-4.5的特性，上下文长度拓展到256K！

尽管GPT-4.5的传闻一直存在，但是没有任何地方透露过相关的消息。而最新的OpenAI官网似乎已经悄悄上架了GPT-4.5-Turbo的信息。尽管目前网页被删除，但是Bing检索保留了相关缓存并可以在Bing Chat中回答。

2024/03/13 01:03:58 阅读 663

BingChat/GPT-4.5/OpenAI

阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3

阿里今天开源了一个Qwen3-235B-A22B模型的小幅更新版本，命名为Qwen3-235B-A22B-Thinking-2507，这是一个只支持带推理过程的模型，而四天前，阿里还开源了Qwen3-235B-A22B-Instruct-2507，一个不支持推理过程的模型。这2个版本模型去除了Qwen3此前的一个模型的混合架构模式（即一个模型同时支持thinking和non-thinking），而是拆分成2个不同的版本。阿里官方说这是从社区获得了反馈之后决策的。

2025/07/26 08:22:25 阅读 656

Qwen3/Qwen3更新版/千问大模型

StabilityAI发布实时文本生成图片大模型SDXL Turbo——生成一张图片可能只需要0.207秒

StabilityAI是当前最流行的开源文本生成图像大模型Stable Diffusion背后的公司。这家公司在文本生成图片和文本生成视频方面开源了诸多的大模型。其中，Stable Diffusion是目前使用人数最多的开源文本生成图像大模型。就在刚才，StabilityAI又发布了一个全新的实时的文本生成图像大模型Stable Diffusion XL Turbo，这个最新的模型在A100上生成一张图片只需要0.207秒！

2023/11/29 09:36:49 阅读 655

SDXLTurbo/StabilityAI/StableDiffusion/StableDiffusionXLTurbo

月之暗面开源了一个全新的160亿参数规模的MoE大语言模型Moonlight-16B：其训练算力仅需业界主流的一半

月之暗面（Moonshot AI）是此前中国大模型企业中非常受关注的一家企业。旗下的Kimi大模型和产品因为强悍的性能、超长的上下文以及非常快速的响应引起了广泛的关注。不过，此前MoonshotAI的策略一直是闭源模型，但是产品免费。也许是受到了DeepSeek的压力，月之暗面在2025年2月23日首次开源了旗下的一个小规模参数的大语言模型Moonlight-16B。

2025/02/23 21:08:11 阅读 648

MoE大模型/MoE架构/Moonlight-16B/开源大模型

StarCoder2发布，开源编程大模型又一个强大选择！

在近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在代码生成和编辑领域的应用越来越广泛，成为软件开发中不可或缺的助手。今天，我想向大家介绍一个由BigCode项目与Software Heritage合作开发的下一代代码大型语言模型——StarCoder 2。

2024/03/01 18:54:33 阅读 647

StarCoder2/编程大模型

OpenAI更新新版的Assistant API接口到Assistant API v2版本，现在你可以让GPT-4同时搜索1万个文件

Assistant API是OpenAI提供的一个大模型助手类的接口，可以让开发者更加自由、准确地构建类AI Assitant系统。一个AI Assistant可以利用大模型、工具和文件来响应用户的问题。

2024/04/18 09:14:16 阅读 647

AIAgent/AssistantAPI

GPT-5可能是什么样？网友总结了Sam在达沃斯论坛中的几场演讲，抽取了Sam演讲中包含的GPT-5相关的内容

OpenAI的CEO Sam最近参加了世界经济论坛，发表了几场演讲。有网友听了完整的Sam的4-5场演讲，并从中抽取了Sam关于GPT-5相关的论述。从中我们可以看到未来GPT-5可能的样子。这里为大家总结翻译一下。

2024/01/23 13:13:46 阅读 645

GPT-5/OpenAI/Sam/大模型洞察/大模型进展

Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

Grok4是马斯克旗下大模型初创企业xAI的第四代代码，在五月份的时候，马斯克就透露他们马上要发布Grok 3.5模型，六月份的时候说这个模型效果很好，版本号就直接改为4，这中间经过多次波折，最终马斯克说Grok 4将在7月4日之后发布。截止目前，虽然xAI官方没有正式宣布Grok 4，但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。

2025/07/05 11:30:43 阅读 643

Grok4/Grok4Code/xAI/大模型/马斯克

谷歌发布Genie 3：一个可以生成720P开启实时交互式虚拟世界生成新纪元

谷歌DeepMind发布了一个全新的大模型——Genie 3，这是一个能够根据文本描述生成多样化、可实时交互虚拟世界的通用世界模型。目前，Genie3可以生成几分钟的720P的视频，且每秒24帧左右。用户也可以在生成的视频中实时交互控制。从谷歌官方的视频看，这个Genie 3模型生成的视频和游戏世界的质量很高，非常令人心动！

2025/08/05 23:17:11 阅读 643

Genie3/Google/世界模型

AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

马斯克旗下的xAI公司正式发布Grok4大模型，包含Grok 4和Grok4 Heavy版本，其中Grok4 Heavy是一个Agent系统，在AIME2025（美国的数学邀请赛）得分满分，超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:56 阅读 641

Grok4/Grok4Code/GrokHeavy/xAI/大模型/马斯克

如何更好地使用 Sora2 生成视频？来自 OpenAI 官方的终极 Prompt 指南

Sora2 的发布再次引爆了视频生成领域。你可能已经看到过一些令人惊叹的演示视频，但当你自己上手时，生成的作品可能并不尽如人意。问题出在哪里？很可能就在你的提示词（Prompt）上。

2025/10/07 23:35:12 阅读 640

Sora2/视频生成大模型

评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日，Anthropic推出了他们的第三代大语言模型Claude3，包含3个不同的版本，支持多模态和最高100万上下文输入！

2024/03/05 23:21:28 阅读 638

Anthropic/Claude3/Claude3-Opus/Claude大模型

阿里开源推理大模型QwQ-32B-Preview：开源领域对OpenAI o1模型奋起直追，能力接近o1-mini，超过GPT-4o！

随着OpenAI发布推理大模型o1，专注于推理能力的大模型开始被广泛关注。基于思维链探索的推理大模型也不断涌现。此前，DeepSeekAI与上海人工智能实验室都发布过推理大模型，也展现了很不错的推理能力，虽然DeepSeekAI官方承诺该模型会开源，但是目前还没有发布。今天，阿里开源了一个全新的推理大模型QwQ-32B-Preview，其推理能力在评测结果上超过o1-mini，是目前开源领域最强的推理大模型（也可能是目前唯一）。

2024/11/28 13:40:41 阅读 636

o1/QwQ/QwQ-32B-Preview/推理大模型

谷歌发布新一代大模型Gemini 2.5 Flash，成本、速度和性能的最优均衡，同时支持推理和非推理模式，评测结果超Sonnet 3.7

Gemini系列是Google的大模型品牌，2025年3月25日，Google发布了Gemini 2.5 Pro版本，这是谷歌发布的Gemini 2.5系列的第一个模型，参数规模较大，但是在多项评测结果上获得了全球最优的效果，Gemini 2.5 Pro成本比较高，时延也比较大，20天之后，谷歌又发布了Gemini 2.5 Flash模型，是性能、成本和效果的最佳均衡模型。

2025/04/21 13:21:24 阅读 629

Gemini/Gemini2.5/Gemini2.5Flash/Google大模型/谷歌大模型