统计、机器学习与编程知识的原创博客

Meta开源Llama3.3-70B-Instruct模型：大模型后训练的佳作，性能超越4050亿参数规模的Llama3.1-405B大模型！

Llama系列大语言模型一直是开源领域的大模型标杆，Llama3系列大模型自从开源之后一直在不断更新。最早的Llama3模型于2024年4月开源，此后，几乎每个三个月都有一个新版本发布。就在昨天，Meta开源了最新的Llama3.3-70B模型，这是Llama3.3系列目前唯一开源的模型。尽管该模型的参数规模仅仅700亿，但是在多项评测基准上已经超过了4050亿参数规模的Llama3.1-405B，后者是Llama系列模型中参数规模最大的一个，也是业界开源模型中参数规模最高的模型之一。

2024/12/08 22:35:45 阅读 1130

Llama3.3/Llama3.3-70B-Instruct

Grok3发布！马斯克旗下大模型企业xAI发布Grok3、Grok3-mini，支持Deep Research、语音交互和“思考”模式的推理大模型，推理模式评测结果全球最强

今天马斯克旗下的xAI公司发布了最新一代大语言模型Grok3，基于20万张GPU集群训练，各方面的提升都非常明显。在主流评测上都超过了现有的大模型。

2025/02/18 17:01:41 阅读 1140

Grok-3/Grok-3/Grok-3-mini/推理大模型

重磅！谷歌宣布发布Gemini 1.5 Pro，距离Gemini发布仅仅一个半月！最高支持1000万上下文长度，GSM8K评测全球第一

在2023年12月份，Google发布了Gemini系列大模型（参考：谷歌发布号称超过GPT-4V的大模型Gemini：4个版本，最大的Gemini的MMLU得分90.04，首次超过90的大模型），包含3个不同参数规模的版本。其中，Gemini Ultra号称在MMLU评测上超过了GPT-4，并且在月初也将Bard更名为Gemini，开放了Gemini Ultra的付费使用。刚刚，Google的CEO劈柴哥宣布发布了Gemini 1.5 Pro，这意味着仅仅一个半月，Gemini有了重大更新。

2024/02/16 00:04:22 阅读 1149

Gemini/Gemini1.5Pro/Google/MoE

重磅！Meta将PyTorch移交给Linux基金会！

昨天，Meta的Zuckerberg宣布，将PyTorch由Meta AI移交给Linux Foundation托管。这意味着PyTorch从今天起从Meta独立，并作为Linux Foundation下的一个项目。

2022/09/13 15:37:31 阅读 1151

pytorch/开源

三年后OpenAI再次发布自动语音识别和语音合成大模型（替换Whisper系列）：不开源，仅提供API，英文错字率已经下降到2.46%

2025年3月20日，OpenAI 推出了三款新模型——gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts——标志着自动语音识别 (ASR) 和文本转语音 (TTS) 领域的重要进步。这些模型基于 GPT-4o 架构，旨在为开发人员和用户提高准确性、自定义能力和可访问性，与 OpenAI 对于代理式 AI 系统的更广泛愿景一致。本文提供了对每个模型、其能力、定价、可用性和竞争环境的详细审查，确保技术和非技术受众都能全面理解。

2025/03/21 13:18:49 阅读 1152

ASR/gpt-4o-transcribe/TTS/whisper

个人网站申请免费ssl证书最靠谱的办法

如今，不支持https的网站基本都无法访问，https网站需要在服务端保存ssl证书才可以建立。这个原理本文不多说。目前，各大云服务厂商也提供ssl证书的发放和管理，但都是收费的。对于个人网站来说，基于第三方的服务申请免费证书其实是合适的。但是，国内申请证书并不好用。本文主要记录一个最简单的免费证书申请安装方法。

2023/05/21 15:08:40 阅读 1154

ssl证书

Python800页免费电子书——Python基本库和著名经典库的使用

《Python Notes For Professionals》是StackOverflow上的人总结的Python使用方法。

2022/04/11 15:55:55 阅读 1159

python

重磅！阿里开源第三代千问大模型：Qwen3系列，最小仅6亿参数规模，最大2350亿参数规模大模型！可以根据问题难度自动选择是否带思考过程的大模型，评测超DeepSeek-R1和OpenAI o3

阿里巴巴刚刚开源了第三代千问大模型，Qwen3系列包含了8个不同参数规模的大模型，最大达到2350亿参数规模，最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本，即Qwen3可以根据输入问题的情况自动选择是否进行推理。

2025/04/29 08:59:57 阅读 1160

Qwen3/Qwen3-0.6B/Qwen3-30B-A3B/千问大模型/阿里巴巴

近期ChatGPT Plus用户发现GPT-4性能大幅下降！GPT-4性能下降的现象和原因总结

最近很多ChatGPT Plus用户发现GPT-4的版本有了较大的更新，一个比较吸引人的事情是大多数更新后的GPT-4的知识库已经更新到2023年4月份，而且响应速度大幅提高。不过，令人伤心的是，很多用户发现更新后的GPT-4性能大幅下降，表现在指令遵从、记忆、理解等方面。

2023/11/05 21:50:12 阅读 1170

GPT-4/GPT-4性能下降

人工智能颠覆影响者营销的八种方式

影响者营销将是极好的机会，可以使你的形象更加完善，并接触到新的受众，是一个人性化的宏伟机会？的确如此。它是否充满了影响者和品牌宁愿不管理的问题？同样地，是的。

2021/11/11 09:13:44 阅读 1171

AI应用

LM-SYS开源包含人类偏好的3.3万条真实对话语料：可用于RLHF的训练过程！

LM-SYS全称Large Model Systems Organization，是由加利福尼亚大学伯克利分校的学生和教师与加州大学圣地亚哥分校以及卡内基梅隆大学合作共同创立的开放式研究组织。该团队在2023年3月份成立，目前的工作是建立大模型的系统，是聊天机器人Vicuna的发布团队。今天开源了包含3.3万包含真实人类偏好的对话数据集和3000条专家标注的对话数据集：Chatbot Arena Conversation Dataset和MT-bench人工注释对话数据集。

2023/09/22 11:10:52 阅读 1173

ChatbotArenaConversationDataset/LM-SYS/RLHF数据集/大模型数据集/对齐数据集

文本理解与代码补全都很强！Salesforce开源支持8K上下文输入的大语言模型XGen-7B！

Salesforce是全球最大的CRM企业，但是在开源大模型领域，它也是一个不可忽视的力量。今天，Salesforce宣布开源全新的XGen-7B模型，是一个同时在文本理解和代码补全任务上都表现很好的模型，在MMLU任务和代码生成任务上都表现十分优秀。最重要的是，它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。

2023/06/30 00:22:23 阅读 1180

LLM/XGen/大语言模型/编程大模型

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？Sora与此前的Stable Video Diffusion、Runway Gen2、Pika等有什么区别？OpenAI Sora的缺点是什么？

OpenAI的Sora模型是最近两天最火热的模型。它生成的视频无论是清晰度、连贯性和时间上都有非常好的结果。在Sora之前，业界已经有了很多视频生成工具和平台。但为什么Sora可以引起如此大的关注？Sora生成的视频与此前其它平台生成的视频到底有哪些区别？有很多童鞋似乎对这些问题依然有疑问，本文将以通俗的语言解释Sora的独特之处。

2024/02/17 23:55:05 阅读 1184

OpenAISora/Sora/视频生成大模型

重磅！OpenAI发布最强推理模型“OpenAI o1”(代号草莓），大模型逻辑推理能力大幅提升，官方宣称超越部分人类博士水平！

OpenAI发布了一个全新的针对逻辑推理优化的大语言模型o1模型。官方宣称其推理能力相比较当前的大语言模型（GPT-4o）有了大幅提升。OpenAI宣称o1模型在编程竞赛问题（Codeforces）中排名第89百分位，在美国数学奥林匹克（AIME）的资格赛中位列美国前500名，并且在物理、生物和化学问题的基准测试（GPQA）上超越了人类博士水平的准确率。

2024/09/13 07:37:51 阅读 1191

GPT-4o/o1/OpenAI/OpenAIo1/思维链

马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！

尽管OpenAI最早也是马斯克和别人一起创立，由于各种原因分道扬镳之后马斯克也没有对相关产品感兴趣，直到ChatGPT风卷全球之后，马斯克与OpenAI的人公开吵了几次之后成立了这家公司。半年后的现在，马斯克透露xAI即将发布它的首个大模型Grōk AI。而一位老哥已经透露了该模型的一些细节。

2023/11/05 13:56:32 阅读 1201

Grok/GrōkAI/twitter/xAI/马斯克

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

几个小时前，OpenAI的研究人员披露，其一款内部实验性的大语言模型，在模拟的国际数学奥林匹克（International Math Olympiad ，IMO）竞赛2025中取得了金牌水平的成绩。这是一个里程碑式的突破，因为IMO被认为是衡量创造性数学推理能力的巅峰，远超以往任何AI基准测试。这项成就并非通过专门针对数学的“窄”方法实现，而是源于通用人工智能研究的根本性突破，尤其是在处理难以验证的任务和长时间推理方面。

2025/07/19 18:22:05 阅读 1203

GPT/OpenAI/大模型/大模型评测/数学推理

DataLearnerAI-GPT：可以回答关于大模型评测结果的GPT

最近自定义GPTs非常火热，出现了大量的自定义GPT，可以完成各种各样的有趣的任务。DataLearnerAI目前也创建了一个DataLearnerAI-GPT，目前可以回答大模型在不同评测任务上的得分结果。这些回答是基于OpenLLMLeaderboard数据回答的。未来会考虑增加更多信息，包括DataLearner网站上所有的大模型博客和技术介绍。

2023/11/12 11:25:50 阅读 1205

DataLearnerAI-GPT/OpenLLMLeaderboard/大模型评测

百度文心一言发布，功能尝鲜概览

今天下午，百度发布了文心一言大模型。这是一次对百度来说十分重要的发布会，也几乎是国内当前唯一一家将大模型作为一种大规模的服务推向市场的公司。本文主要介绍刚刚发布的文心一眼相关的能力。

2023/04/24 22:48:43 阅读 1212

大模型/文心一言/百度

全球首个200万上下文商业产品开始内测！月之暗面Kimi助手开启最长上下文模型内测邀请。

MoonshotAI（月之暗面）是一家中国的大模型初创企业，在2023年4月份成立。其最为著名的产品就是KimiChat，一个完全免费的大模型聊天机器人。就在刚刚，MoonshotAI官方宣布开启200万上下文的KimiChat内测！这应该是全球首个商业产品支持并内测200万上下文输入的模型了！此前其它产品宣布的200万上下文大多数都没有公开商发。

2024/03/18 17:37:09 阅读 1213

KimiChat/Long-Context/MoonshotAI/月之暗面/超长上下文

阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！

Qwen1.5系列是阿里开源的一系列大语言模型，也是目前为止最强开源模型之一。Qwen1.5是Qwen2的beta版本，此前开源的模型最大参数规模都是720亿，和第一代模型一样。就在刚刚，阿里开源了1100亿参数规模的Qwen1.5-110B模型。评测结果显示MMLU略超Llama3-70B和Mixtral-8×22B。我们实测结果，相比Qwen1.5-72B模型来说，复杂任务的逻辑提升比较明显！

2024/04/26 22:15:34 阅读 1216

Qwen1.5-110B/Qwen1.5-72B/国产大模型/通义千问/阿里巴巴