统计、机器学习与编程知识的原创博客

LLaMA2 7B一样的性能但是由15倍的推理速度！Deci开源DeciLM-6B和DeciLM-6B-Instruct，发布一天上榜HuggingFace Trending

随着大型语言模型（LLMs）的不断发展，它们在训练和推理方面的计算需求已经呈指数级增长。这一趋势不仅带来了高昂的成本和能源消耗，还引入了模型部署和可伸缩性方面的障碍。为此，DeciLM开源了2个全新的DeciLM-6B和DeciLM-6B-Instruct大模型，参数比LLaMA2 7B略低，性能相当，但是推理速度却超过LLaMA2 7B的15倍。

2023/09/16 16:50:12 阅读 915

DeciLM-6B/DeciLM-6B-Instruct/LLaMA2-7B

如何训练一个大语言模型？当前基于transformer架构的大语言模型的通用训练流程介绍

在当今的人工智能领域，大型语言模型（LLM）已成为备受瞩目的研究方向之一。它们能够理解和生成人类语言，为各种自然语言处理任务提供强大的能力。然而，这些模型的训练不仅仅是将数据输入神经网络，还包括一个复杂的管线，其中包括预训练、监督微调和对齐三个关键步骤。本文将详细介绍这三个步骤，特别关注强化学习与人类反馈（RLHF）的作用和重要性。

2023/09/14 23:32:18 阅读 909

大模型训练过程/大模型预训练

Google发布Gemini 2.0 Pro：MMLU Pro评测超过DeepSeek V3略低于DeepSeek R1，最高上下文长度支持200万tokens！开发者每天免费50次请求！

2025年2月5日，Google官方宣布Gemini 2.0 Pro版本上线，Gemini系列是谷歌最新一代大模型的品牌名称。Google最早在2024年12月中旬发布了Gemini 2.0系列的第一个模型Gemini 2.0 Flash，当时试用的人都普遍反应这个模型速度又快，结果友好，让Google摆脱了此前大模型很落后的印象。今天，Gemini 2.0 Pro上线，其能力更强。

2025/02/06 19:18:02 阅读 903

Gemini/Gemini2.0/Gemini2.0Flash/Gemini2.0Pro

截止目前为止最大的国产开源大模型发布：元象科技开源XVERSE-65B大模型，16K上下文，免费商用

国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早，智谱AI开源ChatGLM-6B之后，国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模，随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后，元象科技开源650亿参数规模的大语言模型XVERSE-65B，将国产开源大模型的参数规模提高到新的台阶。

2023/11/06 17:01:56 阅读 900

XVERSE-65B/国产大模型/开源大模型

Pandas用法小册子

2022/04/19 09:50:27 阅读 899

Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5

2024年10月22日，Anthropic发布了两个新模型：升级版的Claude 3.5 Sonnet和全新的Claude 3.5 Haiku。升级版的Claude 3.5 Sonnet在保持原有价格和速度的基础上，实现了全面性能提升，尤其在编码领域取得了显著进步。新推出的Claude 3.5 Haiku则以与Claude 3 Haiku相同的成本和类似的速度，在多个评测中达到了与Claude 3 Opus相当的性能水平。

2024/10/27 21:21:21 阅读 897

Anthropic/Claude/Claude3/Claude3.5-Haiku/Claude3.5-Sonnet/Claude3.5-SonnetNew

最高50万美金！全新高额奖金的AI竞赛——AI预测大赛

预测在全球决策中发挥着关键作用。例如，关于COVID-19扩散的预测为国家封锁提供了信息，而经济预测则影响了利率的制定。这些预测通常依赖于人类专家的仔细判断，他们必须考虑来自各种来源的数据。由于人工智能系统能够处理大量的数据，它们在这个领域有可能非常有用。为此，ML Safety举办了一个关于AI预测的竞赛，比赛的目的是建立一个机器学习模型，做出准确和校准的预测。

2022/10/12 11:37:36 阅读 895

竞赛

可以在手机端运行的大模型标杆：微软发布第三代Phi-3系列模型，评测结果超过同等参数规模水平，包含三个版本，最小38亿，最高140亿参数

Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿，但是在多个评测结果上都取得了非常亮眼的成绩。今天，微软发布了第三代Phi系列大模型，最高参数规模也到了140亿，其中最小的模型参数38亿，评测结果接近GPT-3.5的水平。

2024/04/23 13:56:44 阅读 893

Phi3/小规模参数大模型/小规模参数语言模型/开源大模型/手机运行大模型

重磅！Scikit-learn与Hugging Face强强联手了！

Hugging Face一直在努力支持深度学习，但是，这只是深度学习的一部分。传统统计机器学习领域里面最重要的工具Scikit-learn如今终于和深度学习的开源标杆工具Hugging Face联手。

2022/10/18 23:36:35 阅读 892

HuggingFace/sklearn/transformers

ManusAI技术解析：这真的是Sonnet 3.7+29个工具的简单AI Agent吗？

就在今天，X平台上的一位博主发现可以通过指令让Manus返回它的系统情况，发现ManusAI是Claude Sonnet 3.7+29个工具组成的一个大模型应用系统，也让很多人认为这就是ManusAI的全部，那么这是真的吗？本文结合ManusAI的成员提供的信息为大家介绍。

2025/03/10 22:15:11 阅读 889

AIAgent/Manus/ManusAI/Multi-AgentSystem/多AIAgent

DeepGraph Library（DGL）发布了0.81版本

2022/04/19 16:03:31 阅读 882

GNN/图神经网络/好物推荐

AI盛世如你所愿！昨天2个最新的开源“GPT”模型发布！

在最近的24个小时内，有2个开源的自然语言处理领域的开源预训练大模型发布。这两个模型都是类似GPT的Transformer模型，可以完成和ChatGPT类似的能力。最重要的是这2个模型完全开源！

2023/04/24 22:47:01 阅读 871

Cerebras-GPT/GPT/Lit-LLaMA/大模型

OpenAI官方最新研究成果：如何用GPT-4这样的语言模型来解释语言模型中的神经元（neurons）

今天，OpenAI官方宣布了一个非常有意思的论文，他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义，试图让语言模型来对语言模型本身的原理进行解释。

2023/05/10 22:30:44 阅读 871

OpenAI/可解释性

OpenAI发布企业使用的ChatGPT：没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能，但是暂不支持私有化部署

OpenAI发布了ChatGPT的企业版，这是一个专为企业设计的聊天机器人。这个版本不仅提供了企业级的安全和隐私保护，还具有更高的处理速度和更多的自定义选项。相比较个人版的ChatGPT，企业版主要是提升了性能、强调了安全等。

2023/08/29 09:16:09 阅读 867

ChatGPT/OpenAI/企业版ChatGPT

AI Agent进展再进一步！Anthropic发布大模型上下文连接访问协议MCP：让任何资源快速变成大模型的工具，突破大模型的能力边界！

最初，大模型的应用主要通过像ChatGPT这样的聊天机器人展现其智能理解能力。随着技术的进步，基于大模型的智能代理（AI Agent）成为突破大模型能力边界的重要方向。这些智能代理能够执行一系列任务、解决问题，并进行决策，具备深刻理解用户需求和自主规划解决方案的能力，并能够根据规划结果，选择和使用各种工具来完成任务。然而，AI Agent系统面临的关键挑战是如何高效地将外部工具、知识、资源等迅速接入大模型，并实现有效利用。尤其是，如何将现有的工具和资源整合进大模型，提升其生产力能力，是一个亟待解决的问题。

2024/11/27 10:41:35 阅读 865

Anthropic/MCP/大模型开放

0基础基于Node.js创建第一个Vue的web项目

最近开始学习新的前端技术。以前开发网站直接使用jQuery+Bootstrap组合，感觉非常容易和方便。但是，现在前端貌似都开始转向基于构建的方式去开发。由于初学者进入一个项目看很多内容也不如上手启动一个项目感受好，本文抛弃原理，直接教大家上手创建一个vue项目。

2022/06/08 22:05:31 阅读 855

vue/前端构建

ChatGPT内置隐藏debug功能：支持下载原始对话、可视化对话分支等

AIPRM的工作人员最近发现ChatGPT的客户端隐藏内置了一个新的debug特性，可以提高ChatGPT对话的问题调试功能。这个特性包含非常多的功能。同时，最新的截图显示ChatGPT Team版本计划可能延迟但没有取消。

2023/12/06 07:43:39 阅读 851

ChatGPT/ChatGPTTeam计划/ChatGPT的Debug模式/新版本ChatGPT

Anthropic的Claude 4即将发布前新功能曝光：带有Thinking模式，且可以看到推理过程

最近，一些未公开但即将发布的内容被曝出，显示出Anthropic正在为其AI模型（Claude）推出一项名为Thinking的新功能。这一功能将极大提升AI在推理和决策时的透明度，允许用户查看AI的思考过程，并提供更长时间的推理分析，帮助用户更好地理解和验证AI的决策逻辑。

2025/03/05 12:51:57 阅读 850

Anthropic/Claude4/推理大模型

为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B？Qwen3-72B还会发布吗？NO！

Qwen3 是阿里于 2025 年 6 月开源的新一代大模型系列，共发布了 8 个不同参数规模的模型，覆盖从 6 亿到 2350 亿参数的范围，融合了稠密模型和 MoE 架构。值得注意的是，此次未包含此前广受关注的 Qwen-72B 稠密模型版本，阿里表示从 Qwen3 起，超过 30B 参数的模型将统一采用 MoE 架构以优化性能和效率。

2025/06/18 16:23:24 阅读 849

Qwen/Qwen2.572B/Qwen3/千问大模型

准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

今天，OpenAI在其官网上发布了一个全新的研究成果：一个利用较弱的模型来引导对齐更强模型的能力的技术，称为由弱到强的泛化。OpenAI认为，未来十年来将诞生超过人类的超级AI系统。但是，这会出现一个问题，即基于人类反馈的强化学习技术将终结。因为彼时，人类的水平不如AI系统，所以可能无法再对模型输出的内容评估好坏。为此，OpenAI提出这种超级对齐技术，希望可以用较弱的模型来对齐较强的模型。这样可以在出现比人类更强的AI系统之后可以继续让AI模型可以遵循人类的意志、偏好和价值观。

2023/12/16 08:08:23 阅读 836

OpenAI/强人工智能/超人类AI/超级对其

SWE-bench Verified：提升 AI 模型在软件工程任务评估中的可靠性

在人工智能领域，随着大型语言模型（LLMs）在各类任务中的表现不断提升，评估这些模型的实际能力变得尤为重要。尤其是在软件工程领域，AI 模型是否能够准确地解决真实的编程问题，是衡量其真正应用潜力的关键。而在这方面，OpenAI 推出的 *SWE-bench Verified* 基准测试，旨在提供一个更加可靠和精确的评估工具，帮助开发者和研究者全面了解 AI 模型在处理软件工程任务时的能力。

2025/08/11 16:54:15 阅读 836

SWE-Bench/大模型编程能力/大模型评测/大模型评测基准

如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages

本周，谷歌的研究人员在arXiv上提交了一个非常有意思的论文，其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。

2022/05/12 23:15:05 阅读 834

工程实践/机器翻译系统/论文快讯

什么时候该使用推理大模型？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

随着DeepSeek R1和OpenAI的o1、o3等推理大模型的发布，我们当前可使用的大模型种类也变多了。但是，推理大模型和普通大模型之间并不是二选一的关系，在不同的问题上二者各有优势。为了让大家更清晰理解推理大模型和普通大模型的应用场景。OpenAI官方推出了一个推理大模型最佳实践指南。描述了二者的对比。本文将总结这份推理大模型最佳实践指南。

2025/03/05 12:53:44 阅读 831

DeepSeekR1/OpenAIo1/推理大模型/推理大模型提示词

马斯克旗下xAI发布Grok-1.5，相比较开源的Grok-1，各项性能大幅提升，接近GPT-4！

Grok系列是马斯克旗下的人工智能企业xAI发布的大语言模型，在推特上给大家使用。第一个版本，Grok-1前端时间开源，效果一般。就在刚才，xAI宣布他们开始内测Grok-1.5，即将全面商用！

2024/03/29 09:21:54 阅读 828

Grok/Grok-1/Grok-1.5/xAI/马斯克

最新博客