统计、机器学习与编程知识的原创博客

OpenAI开源2个全新大模型，比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B，完全免费商用授权

在几个小时前，OpenAI开源了两款名为gpt-oss-120b和gpt-oss-20b的大语言模型。这是自GPT-2以来，OpenAI首次推出开源权重大语言模型，这两个模型的评测效果达到了o4-mini和o3-mini的水平，而且以Apache 2.0协议开源，大家可以自由使用，包括任何形式的商用。

2025/08/06 09:22:22 阅读 241

GPT-OSS/GPT-OSS-120B/GPT-OSS-20B/OpenAI/开源大模型

大模型新王者！谷歌发布Gemini 3.0 Pro，各方面评测几乎都是第一，全球首个大模型匿名投票得分超1500分的模型，支持100万输入上下文！

谷歌终于在2025年11月18日发布了新一代Gemini 3模型：Gemini 3.0 Pro。该模型目前在各个评测排行榜中都获得了非常优秀的结果，几乎是领先了所有的模型。而根据此前大家的匿名投票评分和早期测试，该模型的文本生成、编程、SVG生成等方面都非常优秀。谷歌官方强调，Gemini 3.0 Pro不仅在推理能力上达到了新的业界巅峰，更在理解深度、细微差别以及“思考”能力上实现了质的飞跃。

2025/11/19 09:24:47 阅读 249

Gemini/Gemini3Pro

大模型企业宫斗连续剧：刚刚发生！StabilityAI重要技术人员出走后CEO辞职！HuggingFace CEO说考虑收购StabilityAI

StabilityAI是一家全球知名的大模型企业，他们开源的Stable Diffusion可以理解为DALL·E开源替代的第一大模型，最近正在测试Stable Diffusion 3。然而，这家企业最近陷入了和去年年底OpenAI类似的“内部斗争”中！前几天，StabilityAI内部宣布Stable Diffusion底层技术的五个研究人员已经有三个离职了，造成大家很多震撼。而几个小时前，StabilityAI官宣他们的CEO Emad Mostaque辞职！

2024/03/23 19:51:03 阅读 255

StabilityAI/StableDiffusion

阿里一次发布3款Qwen大模型：开源的全模态Qwen3-Omni和图像编辑大模型Qwen-Image-Edit-2509和不开源的语音识别大模型Qwen3-TTS

几个小时前，阿里一次更新了3个大模型，分别是开源的全模态大模型Qwen3-Omni、开源的图像编辑大模型Qwen3-Image-Edit和不开源的语音识别大模型Qwen3-TTS。本次发布的3个模型均为多模态大模型，可以说阿里的大模型真的是全面开花，节奏很快！

2025/09/23 09:40:47 阅读 255

Qwen-Image-Edit/Qwen3-Omni/Qwen3-TTS

阿里达摩院正式发布了全新的Qwen VLo大模型：全新一代理解与生成合一的多模态大模型

2025年6月26日，阿里达摩院正式发布了全新的Qwen VLo大模型。这是继QwenVL和Qwen2.5 VL后，阿里在多模态大模型领域又一具有里程碑意义的创新。Qwen VLo是一款统一的多模态理解与生成模型，不仅具备深度理解图片与文本内容的能力，更能基于这种理解实现高质量和高度一致的图像生成与编辑，真正跨越了“感知”与“创造”的界限。

2025/06/30 00:12:48 阅读 265

QwenVLo

CohereAI开源了2个Aya Vision多模态大模型：80亿和320亿两种规格多模态大模型，评测结果超越Qwen2.5 72B和Llama 3.2 90B，支持23种语言

Cohere For AI 推出了 Aya Vision 系列，这是一组包含 80 亿（8B）和 320 亿（32B）参数的视觉语言模型（VLMs）。这些模型针对多模态AI系统中的多语言性能挑战，支持23种语言。Aya Vision 基于 Aya Expanse 语言模型，并通过引入视觉语言理解扩展了其能力。该系列模型旨在提升同时需要文本和图像理解的任务性能。

2025/03/04 23:24:06 阅读 273

AyaVision/CohereAI/多模态大模型

阿里开源2个全新多模态理解大模型Qwen3-VL-4B和8B：主流评测结果超Gemini 2.5 Flash Lite、GPT-5 Nano，面向多模态Agent和机器人应用打造

就在刚才，阿里云Qwen团队推出了两个多模态理解大模型Qwen3-VL-4B和Qwen3-VL-8B，本次发布的模型是较小参数规模的模型，可以用于消费级硬件（手机/PC）等，且都是稠密架构。

2025/10/15 09:06:34 阅读 274

Qwen3-VL/图像识别/多模态理解

来自OpenAI官方的GPT-5编码提示词优化实践：6 条“更懂开发者”的提示工程技巧

GPT-5 在指令遵循和推理能力上比前代更强，但也因此更“敏感”：如果规则里有冲突或表述过度强硬，模型往往会卡壳或输出异常。为此，OpenAI 发布了面向开发者的《GPT-5 for Coding》技巧小抄，其中总结了使用 GPT-5 进行编程与代码生成时最实用的六条经验。这些技巧与普通的“写作提示工程”不同，它们专门针对软件开发场景：如何写规则、怎样控制推理强度、如何避免模型“想太多”，以及怎样利用 GPT-5 的新特性把它真正驯化成可靠的结对编程伙伴。本文对这六条技巧逐条进行解释总结。

2025/08/16 21:48:20 阅读 280

GPT-5/Prompt/PromptEngineering/提示词工程

大语言模型（Large Language Model）为什么会“幻觉”？OpenAI最新发布揭示大模型幻觉根源与解决路径

尽管人工智能语言模型的能力日益强大，但它们依然面临一个棘手的问题：“幻觉”（Hallucination）。所谓幻觉，指的是模型自信地生成一个事实上错误的答案。OpenAI 的最新研究论文指出，这一现象的根源在于标准的训练和评估方式实际上在鼓励模型“猜测”而非“承认不确定性”。

2025/09/06 03:41:27 阅读 288

大模型幻觉

MiniMaxAI开源MiniMax M2模型：Artificial Analysis评测显示综合智能得分超过Claude Opus 4.1，开源第一，全球第五。

MiniMax正式开源MiniMax M2模型，该模型定位是“Mini 模型，Max 编码与代理工作流”。最大的特点是2300亿总参数量，但是每次推理仅激活100亿，类似于10B模型。这款模型非常火爆，原因在于这么小的激活参数数量，推理速度很快，但是其评测结果非常优秀。

2025/10/27 17:42:14 阅读 290

MiniMaxM2/开源大模型/编程大模型

智谱AI发布GLM-4.5V多模态推理模型

智谱AI刚刚开源了新一代视觉-语言模型（Vision-Language Model, VLM）——GLM-4.5V。该模型基于其旗舰文本基础模型GLM-4.5-Air（总参数量1060亿，激活参数量120亿），延续GLM-4.1V-Thinking的技术路线，在42项公开视觉多模态基准测试中，在同规模模型中实现领先性能。GLM-4.5V面向图像、视频、文档理解以及GUI任务等常见多模态场景，采用Mixture-of-Experts（MoE）架构，并保持开源。

2025/08/11 23:28:48 阅读 292

GLM-4.5V/开源大模型/智谱AI/视觉理解大模型

阿里正式开源最强视觉理解大模型Qwen3-VL：关键评测基准超Gemini 2.5 Pro，支持针对视觉输入进行推理，甚至可以理解3D场景

今日，QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型，在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线，并提供 Instruct 和 Thinking 两个版本，前者在视觉感知上全面对标并超过 Gemini 2.5 Pro，后者则在多模态推理基准上创下新纪录，成为开源阵营的最强视觉理解大模型。

2025/09/24 08:14:19 阅读 294

Qwen3-VL

直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

就在昨天，2025年10月7日，Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力，新增了“界面交互（UI 控制）”能力，能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:37 阅读 294

AIAgent/Gemini2.5ComputerUse/计算机使用

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力

短短两年间，AI技术的进步为软件工程带来了新的可能性。然而，这些模型在真实世界的软件工程任务中究竟能发挥多大的作用？它们能否通过完成实际的软件工程任务来赚取可观的收入？为了验证大模型解决真实任务的能力和水平，OpenAI发布了一个全新的大模型评测基准SWE-Lancer来评测大模型这方面的能力。

2025/02/19 21:40:31 阅读 307

SWE-Lancer/大模型评测/大模型评测基准

DeepSeekAI开源全新的DeepSeek-OCR模型：参数规模仅30亿的MoE大模型，图像文本结构化提取成本下降十倍！准确率超过Qwen2.5-VL-7B

DeepSeek AI团队重磅推出DeepSeek-OCR，该模型不仅在文档提取上达到了行业领先水平，更通过创新的视觉压缩技术，将长上下文处理效率提升了 10 倍以上。根据测算，在A100-40G的一个GPU上，它每天可以将20万页的文档图像数据转为Markdown文本！

2025/10/20 20:47:35 阅读 309

DeepSeek/DeepSeek-OCR/多模态大模型

法国人工智能初创企业MistralAI发布首个推理模型Magistral：纯RL训练，多语言能力出色，推理速度很快，Magistral Small (24B)版本免费开源，但面对Qwen3和DeepSeek稍显乏力

Mistral AI今天发布了其首个专注于推理能力的系列模型——**Magistral**。这次发布包含两个核心模型：旗舰模型`Magistral Medium`和已开源的`Magistral Small (24B)`。最引人注目的亮点是，Mistral展示了其自研的强化学习（RL）pipeline能够从头开始，仅通过RL训练就将基础模型的推理能力提升到业界顶尖水平，而无需依赖任何其他预先存在的推理模型进行数据蒸馏。这套技术栈非常强大！

2025/06/11 22:45:43 阅读 315

Magistral/Mistral/推理大模型

最近很火的基于人工智能（AI）的vibe coding是什么？它和传统软件编码之间有什么区别？

“Vibe Coding”（氛围编程）是一种新兴的编程范式，强调通过自然语言与人工智能（AI）协作开发软件。该概念由前 OpenAI 研究员 Andrej Karpathy 于 2025 年提出，旨在让开发者沉浸于创作氛围中，利用 AI 的能力，将自然语言描述转化为实际源代码，从而简化编程过程。

2025/06/08 20:56:21 阅读 317

AI应用/AI编程/VibeCoding/大模型编程

ARC-AGI-2：重塑大模型通用智能评测

人工智能（AI）的通用智能（AGI）发展一直是研究领域的焦点。近期，由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准，为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

2025/07/10 12:51:46 阅读 320

ARC-AGI-2/大模型评测/大模型评测基准/评测基准

OpenAI即将推出DALL·E Controls功能，可以更加精细化控制DALL·E图片生成的效果

DALL·E3是OpenAI推出的文本生成图片服务，背后也是一个文生图大模型。此前，该模型只能通过对话的方式让模型生成图片结果。无法通过配置信息控制模型输出的效果，包括风格、比例等。而最新的截图显示，OpenAI可能即将推出DALL·E Controls功能，可以从不同的方面来控制图片生成的效果。

2024/01/27 08:49:55 阅读 321

ChatGPT/DALL·EControls/GPT自定义/版本ChatGPT

断层领先！Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview，火爆网络的Nano Banana背后真正的模型发布！

就在刚才，Google宣布发布最新的图像生成和编辑大模型Gemini 2.5 Flash Image Preview。该模型就是最近火爆网络的Nana Banana背后真正的模型。该模型在图片生成和编辑方面目前是断层领先，效果非常好。

2025/08/27 01:22:47 阅读 321

Gemini2.5FlashImage/图像生成大模型/图像编辑大模型

OpenAI发布最强大模型OpenAI o3-pro：业界评价该模型解决复杂问题效果很好，但是回复一句“Hi”也需要三分钟

OpenAI 正式发布了其最新模型 OpenAI o3-pro，这是其旗舰模型 o3 的专业增强版。o3-pro 专为需要“更长时间思考”的复杂任务而设计，其核心亮点在于极致的可靠性和准确性，尤其在数学、科学和编程等专业领域表现卓越。根据OpenAI引入的全新“4/4可靠性”评测标准，o3-pro 的性能远超前代，OpenAI官方强调o3-pro在处理高难度、高风险任务的能力上实现了质的飞跃。

2025/06/11 08:57:28 阅读 326

GPT/o3-pro/OpenAI/推理大模型

Qwen Code介绍和使用：阿里开源的命令行AI编程助手，免费开源，支持最高100万的上下文！

阿里巴巴的 Qwen Code 是一款开源的命令行 AI 工具，旨在提升开发者的编程效率，特别适用于处理大型代码库和复杂的开发任务。 2025年8月9日，阿里宣布提供每天2000次的免费Qwen Code服务，应该是满足大多数开发者的日常需求了。

2025/08/09 08:52:12 阅读 337

Qwen/QwenCode/命令行AI助手/阿里

OpenAI收入大揭秘：2024年收入40亿美金，2030年预计达到2000亿，年均复合增长超90%！ChatGPT占比将逐年下降！

根据TheInformaiton的披露，近期OpenAI更新了他们最新财务预测（截至2025年第三季度）。这份收入预测展示了当前OpenAI的收入情况，并描绘了一幅引人注目的未来图景。与2025年第一季度OpenAI自己的预测相比，新数据不仅上调了收入预期，也揭示了公司因基础设施投入而面临的巨大现金消耗压力。本文将简单解读一下这份数据，包括OpenAI的收入情况，不同产品占比，如ChatGPT的比重等。

2025/09/06 20:21:00 阅读 343

ChatGPT/OpenAI