标签

「G」相关文章（第4页）

汇总「G」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#G

Kimi开源K2大模型：全球首个开源可商用的1万亿参数规模大模型，MoE架构，评测结果与DeepSeekV3相当，但模型文件有1TB！

Kimi K2是由Moonshot AI最新推出的旗舰级大模型，首次将开放Agentic Intelligence（自主代理智能）与强大工具调用能力有机整合。它不仅在知识推理、数学、代码等传统“非思维模型”任务上展现出全球领先的能力，还特别针对一系列实际Agentic（自动决策与操作型）任务进行了深度优化。在业内，这代表AI模型正从“只会答题”向“能自主完成复杂任务”转变。K2模型完全开源，可免费商用授权。

2025/07/12 09:36:271,508

#AIAgent #K2

AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

马斯克旗下的xAI公司正式发布Grok4大模型，包含Grok 4和Grok4 Heavy版本，其中Grok4 Heavy是一个Agent系统，在AIME2025（美国的数学邀请赛）得分满分，超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:561,156

#Grok4 #Grok4Code

ARC-AGI-2：重塑大模型通用智能评测

人工智能（AI）的通用智能（AGI）发展一直是研究领域的焦点。近期，由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准，为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

2025/07/10 12:51:46727

#ARC-AGI-2 #大模型评测

ManusAI产品介绍和特点总结，以及用户对该产品的评价总结，背后的开发团队介绍

Manus AI 是一款尖端的人工智能代理程序，于 2025 年 3 月 6 日正式发布，旨在跨多个领域自主执行复杂任务，弥合人类意图与可操作结果之间的差距。它由 Butterfly Effect 开发，该公司在中国（北京和武汉）以及新加坡（BUTTERFLY EFFECT PTE. LTD.）设有运营机构。以下内容基于截至 2025 年 7 月 5 日的最新信息，涵盖其产品功能、关键技术特点及用户反馈。

2025/07/06 11:07:34473

#AIAgent #Manus

「G」相关文章（第4页）

Kimi开源K2大模型：全球首个开源可商用的1万亿参数规模大模型，MoE架构，评测结果与DeepSeekV3相当，但模型文件有1TB！

AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

ARC-AGI-2：重塑大模型通用智能评测

ManusAI产品介绍和特点总结，以及用户对该产品的评价总结，背后的开发团队介绍

Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

智谱AI开源多模态推理大模型GLM-4.1V-Thinking：90亿参数，基于强化学习技术，带推理能力，多模态理解能力接近720亿的Qwen2.5-VL-72B，免费商用授权

华为开源2个Pangu大模型：分别是MoE架构，720亿总参数，160亿激活参数的Pangu Pro MoE以及Pangu Embedded，评测结果略超同级别的Qwen3

Google开源多模态大模型Gemma3n的正式版：重新定义端侧AI的多模态能力，10B（100亿）参数以下最强多模态大模型，一个月前的预览版正式转正

Gemini CLI: Google发布的开源AI智能体，将Gemini 2.5 Pro直接带入你的终端，每天可以免费使用1000次Gemini 2.5 Pro！

Google发布全新Gemini 2.5 Flash Lite：极致速度与性价比的轻量级新选择，实测生成速度最高可超过400 tokens/每秒，能力喜人！堪称甜品级大模型！

法国人工智能初创企业MistralAI发布首个推理模型Magistral：纯RL训练，多语言能力出色，推理速度很快，Magistral Small (24B)版本免费开源，但面对Qwen3和DeepSeek稍显乏力

OpenAI发布最强大模型OpenAI o3-pro：业界评价该模型解决复杂问题效果很好，但是回复一句“Hi”也需要三分钟

向量大模型新选择，阿里开源向量大模型Qwen-Embedding和重排序大模型Qwen-Reranker，开源向量检索能力第一名！完全免费开源。

最近很火的基于人工智能（AI）的vibe coding是什么？它和传统软件编码之间有什么区别？

微软开源140亿参数规模的Phi-4推理版本大模型：多项评测结果超过OpenAI o1-mini，单张4090可运行，完全免费开源

谷歌发布新一代大模型Gemini 2.5 Flash，成本、速度和性能的最优均衡，同时支持推理和非推理模式，评测结果超Sonnet 3.7

GPT-4o再度更新：OpenAI发布GPT-4o(2025-03-26)版本模型，大幅提升复杂指令遵循能力，在LM Arena评测超过GPT-4.5，所有类别评测仅次于Gemini 2.5 Pro

Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型，最高支持200万上下文，全模态输入，推理大模型，LMArena排名第一

三年后OpenAI再次发布自动语音识别和语音合成大模型（替换Whisper系列）：不开源，仅提供API，英文错字率已经下降到2.46%

GPQA Diamond：评估专家级推理能力的问答基准

GPQA: 可以防止使用谷歌作弊的研究生级别难度的大模型专业能力评测基准（A Graduate-Level Google-Proof Q&A Benchmark）

Google开源第三代Gemma-3系列模型：支持多模态、最多128K输入，其中Gemma 3-27B在大模型匿名竞技场得分超过了Qwen2.5-Max

ManusAI技术解析：这真的是Sonnet 3.7+29个工具的简单AI Agent吗？

智谱AI开源了一个可以带文字的图像的多模态大模型CogView4-6B：图片文本带有中英文混排，指定比例范围内的任意尺寸图像可生成，免费商用授权