标签

「模型」相关文章（第7页）

汇总「模型」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#模型

阿里巴巴开源第二代大语言模型Qwen2系列，最高参数规模700亿，评测结果位列开源模型第一，超过了Meta开源的Llama3-70B！

Qwen系列大语言模型是阿里巴巴开源的大语言模型。最早的Qwen模型在2023年8月份开源，当时只有70亿参数规模模型，随后阿里巴巴不断开源新的模型，最高参数规模达到了700亿，版本也从1.0升级到2024年3月份的1.5，再到今天发布的Qwen2系列。Qwen已经开源了几十个不同参数规模的大模型。此次发布的Qwen2.0系列不仅在评测任务上超过了现有的开源模型，也在实际应用中有非常好的表现。

2024/06/09 21:34:431,811

#Qwen2-72B #Qwen2

OpenAI发布的GPT-4o能力总结，数学推理能力超过所有模型，价格下降一半！

OpenAI在GPT-4发布一年之后再次更新其基础模型，发布最新的GPT-4o模型，其中o代表的是omni，即“全能”的意思。GPT-4o相比较此前最大的升级是对多模态的支持以及性能的提升。GPT-4o在各方面比GPT-4更强，但是速度更快，开发者接口的价格则只有一半！

2024/05/14 08:14:481,825

#GPT-4o #OpenAI

阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！

Qwen1.5系列是阿里开源的一系列大语言模型，也是目前为止最强开源模型之一。Qwen1.5是Qwen2的beta版本，此前开源的模型最大参数规模都是720亿，和第一代模型一样。就在刚刚，阿里开源了1100亿参数规模的Qwen1.5-110B模型。评测结果显示MMLU略超Llama3-70B和Mixtral-8×22B。我们实测结果，相比Qwen1.5-72B模型来说，复杂任务的逻辑提升比较明显！

2024/04/26 22:15:341,676

#Qwen1.5-110B #Qwen1.5-72B

可以在手机端运行的大模型标杆：微软发布第三代Phi-3系列模型，评测结果超过同等参数规模水平，包含三个版本，最小38亿，最高140亿参数

Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿，但是在多个评测结果上都取得了非常亮眼的成绩。今天，微软发布了第三代Phi系列大模型，最高参数规模也到了140亿，其中最小的模型参数38亿，评测结果接近GPT-3.5的水平。

2024/04/23 13:56:441,264

#Phi3 #小规模参数大模型

MistralAI正式官宣开源全球最大的混合专家大模型Mixtral 8x22B，官方模型上架HuggingFace，包含指令微调后的版本！

今天，MistralAI官方正式官宣了这个模型，并在HuggingFace上上架了两个不同的版本，一个是预训练基础模型Mixtral 8x22B，另一个则是指令优化的版本Mixtral-8x22B-Instruct。同时官网发布了博客介绍这个全新的大模型，并披露了更加详细的结果。

2024/04/17 23:11:161,789

#MistralAI #Mixtral8x22B

HumanEval评测接近GPT-4-Turbo！阿里巴巴开源70亿参数编程大模型CodeQwen1.5-7B！

编程大模型是当前大语言模型里面最重要的一类。一般是基础大模型在预训练之后，加入代码数据集继续训练得到。在代码补全、代码生成方面一般强于常规的大语言模型。阿里最新开源的70亿参数大模型CodeQwen1.5-7B在HumanEval评测结果上超过了GPT-4早期版本，表现异常地好！

2024/04/17 21:37:432,478

#CodeQwen #CodeQwen1.5-7B

开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

开源大语言模型经过一年多的发展，终于有一个模型可以在权威榜单上击败GPT-4的较早的版本，这就是CohereAI企业开源的Command R+。这是一个开源但是不允许商用的模型，参数规模达到1040亿，也是目前为止开源参数规模最大的一个模型。

2024/04/09 20:35:232,024

#CohereAI #CommandR

国产MoE架构模型大爆发！深圳元象科技XVERSE开源256亿参数MoE大模型XVERSE-MoE-A4.2B，评测结果接近Llama1-65B

混合专家架构大模型是当前最火热的一个大模型技术发展方向。三月底，业界开源了多个混合专家大模型，包括DBRX、Qwen1.5-MoE-A2.7B等。而在四月初，又一家国产大模型企业开源了一个全新的MoE架构的模型，即深圳元象科技XVERSE开源的XVERSE-MoE-A4.2B。该模型参数256亿，推理时仅激活42亿参数，效果与当前主流的130亿参数的规模差不多。

2024/04/07 22:44:281,097

#MoE #XVERSE-MoE-A4.2B

重磅！阿里巴巴开源自家首个MoE技术大模型：Qwen1.5-MoE-A2.7B，性能约等于70亿参数规模的大模型Mistral-7B

阿里巴巴的通义千问一直是开源领域最强大的大模型之一。就在今天，阿里巴巴首次开源了他们家的MoE技术大模型Qwen1.5-MoE-A2.7B，这个模型是使用现有的Qwen-1.8B模型作为起点，通过类似merge技术进行合并得到的。

2024/03/29 00:40:062,587

#MoE #Qwen1.5-MoE

A21 Labs宣布开源520亿参数的全新混合专家大模型（Mixture of Experts，MoE）Jamba：单个GPU的上下文长度是Mixtral 8x7B的三倍

A21实验室是一家以色列的大模型研究机构，专门从事自然语言处理相关的研究。就在今天，A21实验室开源了一个全新的基于混合专家的的大语言模型Jamba，这个MoE模型可以在单个GPU上支持最高140K上下文的输入，非常具有吸引力。

2024/03/29 00:04:31731

#Jamba #MoE

开源领域大语言模型再上台阶：Databricks开源1320亿参数规模的混合专家大语言模型DBRX-16×12B，评测表现超过Mixtral-8×7B-MoE，免费商用授权！

基于混合专家技术的大语言模型是当前大语言模型的一个重要方向。去年MistralAI开源了全球最有影响力的Mixtal-8×7B-MoE模型，吸引了很多关注。在2024年3月27日的今天，Databricks宣布开源一个全新的1320亿参数的混合专家大语言模型DBRX。

2024/03/27 22:34:431,365

#DBRX #MoE

GGUF格式的大模型文件是什么意思？gguf是什么格式？如何使用？为什么有GGUF格式的大模型文件？GGUF大模型文件与GGML的差异是啥？

在大模型领域，GGUF是一个非常常见的词语，也是非常常见的大模型预训练结果命名方式。很多人都有疑问gguf是什么格式？很多模型模型，如Yi-34B、Llama2-70B等模型都有对应的GGUF版本，这些版本都模型除了文件名多了GGUF外，其它与原有的模型名称完全一致。那么，GGUF大模型文件格式是什么意思？为什么会有这样的大模型文件，与它一同出现对比的是GGML格式文件，二者的区别是啥？

2024/03/16 21:34:2627,390

#GGML #GGUF

HuggingFace官方宣布将对GGUF格式的大模型文件增加更多的支持，未来可以直接在HF上查看GGUF文件的元数据信息！

当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。因此，大模型预训练结果文件的保存格式对于模型的使用和生态的发展来说极其重要。昨天HuggingFace官方宣布将推动GGUF格式的大模型文件在HuggingFace上的使用。

2024/03/16 21:34:142,227

#GGML #GGUF

全球首个AI软件工程师问世：可以自己训练微调大模型的AI软件工程师Devin简介

大多数编程领域的大模型应用都是单行代码补全或者单个函数生成的方式。完整的程序生成依然面临较大的挑战。而现在，一个初创企业直接发布了一个AI软件工程师，可以直接作为一个程序员来接受用户需求和反馈，独立完成编码和应用上线功能。这就是Cognition发布的全球首个AI软件工程师Devin。

2024/03/13 00:15:182,016

#AI软件工程师 #Devin

OpenAI开源大模型调测工具Transformer Debugger（TDB）：可以在训练大模型之前理解模型的运行情况并干预

自从OpenAI转向盈利化运营之后，很少再开源自己的技术。但就在刚才，OpenAI开源了一个全新的大模型调测工具：Transformer Debugger。这个工具可以帮助开发者调测大模型的推理情况，帮助我们理解模型的输出并提供一定的解释支持。

2024/03/12 16:06:53655

#OpenAI #TransformerDebugger

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

深度求索是著名量化机构幻方量化旗下的一家大模型初创企业，成立与2023年7月份。他们开源了很多大模型，其中编程大模型DeepSeek-Coder系列获得了非常多的好评。而在今天，DeepSeek-AI再次开源了全新的多模态大模型DeepSeek-VL系列，包含70亿和13亿两种不同规模的4个版本的模型。

2024/03/11 14:11:261,930

#DeepSeek-VL #DeepSeekAI

评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日，Anthropic推出了他们的第三代大语言模型Claude3，包含3个不同的版本，支持多模态和最高100万上下文输入！

2024/03/05 23:21:281,078

#Anthropic #Claude3-Opus

StarCoder2发布，开源编程大模型又一个强大选择！

在近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在代码生成和编辑领域的应用越来越广泛，成为软件开发中不可或缺的助手。今天，我想向大家介绍一个由BigCode项目与Software Heritage合作开发的下一代代码大型语言模型——StarCoder 2。

2024/03/01 18:54:33997

#StarCoder2 #编程大模型

重磅！谷歌开源Gemini同源技术大模型Gemma，分别为70亿参数和20亿参数，同等规模参数评测极其优秀！

Google Gemini是谷歌最新推出的和OpenAI竞争的大语言模型。尽管Gemini褒贬不一，但是Gemini模型的影响力是巨大的。而现在更加令人激动的是谷歌开源了2个新的不同参数规模的模型，分别是Gemma 7B和Gemma 2B，其技术与Gemini模型一致。但是这两个开源模型完全公开，可以商用授权。

2024/02/21 22:02:282,883

#Gemini #Gemma

截止目前可能是全球最快的大语言模型推理服务：实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型

大模型的推理速度是当前制约大模型应用的一个非常重要的问题。在很多的应用场景中（如复杂的接口调用、很多信息处理）的场景，更快的大模型响应速度通常意味着更好的体验。但是，在实际中我们可用的场景下，大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens，快的一般也不会超过每秒100个tokens。而最近，美国加州一家企业Groq推出了他们的大模型服务，可以达到每秒接近500个tokens的响应速度，非常震撼。

2024/02/19 18:25:081,708

#Groq #LPU

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？Sora与此前的Stable Video Diffusion、Runway Gen2、Pika等有什么区别？OpenAI Sora的缺点是什么？

OpenAI的Sora模型是最近两天最火热的模型。它生成的视频无论是清晰度、连贯性和时间上都有非常好的结果。在Sora之前，业界已经有了很多视频生成工具和平台。但为什么Sora可以引起如此大的关注？Sora生成的视频与此前其它平台生成的视频到底有哪些区别？有很多童鞋似乎对这些问题依然有疑问，本文将以通俗的语言解释Sora的独特之处。

2024/02/17 23:55:051,573

#OpenAISora #Sora

OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

OpenAI宣布发布全新的Diffusion大模型Sora，这是一个可以生成最长60秒视频的视频生成大模型，最大的特点是可以生成非常逼真的电影画面版的视频。

2024/02/17 09:45:121,746

#OpenAISora #Sora

MistralAI可能即将发布新的大语言模型，Mistral Next悄悄登场Chat Arena！

MistralAI又悄悄地上线了另一个模型，即Mistral Next。相比之前的发布预训练种子引起大家猜测的方式，本次MistralAI又把模型发布玩出了花，他们没有公布任何信息，选择直接上架LM-SYS的大模型竞技场Chat Arena，让大家直接体验对比。

2024/02/16 18:28:04684

#MistralAI #MistralNext

重磅！第二代通义千问大模型开源，阿里巴巴一口气开源了30个不同参数规模的模型，其中Qwen1.5-72B仅次于GPT-4.

今天阿里巴巴开源了他们家第二代的Qwen系列大语言模型（准确说是1.5代），从官方给出的测评结果看，Qwen1.5系列大模型相比较第一代有非常明显的进步，其中720亿参数规模版本的Qwen1.5-72B-Chat在各项评测结果中都非常接近GPT-4的模型，在MT-Bench的得分中甚至超过了此前最为神秘但最接近GPT-4水平的Mistral-Medium模型。

2024/02/06 01:35:594,937

#Qwen #Qwen1.5