大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

「A」标签相关文章 - 第9页 | DataLearnerAI

首页/
博客/
标签：A/
第9页

标签

「A」相关文章（第9页）

汇总「A」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#A

重磅！马斯克宣布本周开源xAI开发的大语言模型Grok！

重磅！马斯克宣布本周开源xAI开发的大语言模型Grok！

就在刚刚，马斯克在推特上宣布本周会开源Grok大语言模型。xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆，离开OpenAI之后马斯克又再次开始推出大模型，就是这个Grok。

2024/03/11 17:06:46804

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

深度求索是著名量化机构幻方量化旗下的一家大模型初创企业，成立与2023年7月份。他们开源了很多大模型，其中编程大模型DeepSeek-Coder系列获得了非常多的好评。而在今天，DeepSeek-AI再次开源了全新的多模态大模型DeepSeek-VL系列，包含70亿和13亿两种不同规模的4个版本的模型。

2024/03/11 14:11:261,874

#DeepSeek-VL #DeepSeekAI

评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

评测结果超过GPT-4，Anthropic发布第三代大语言模型Claude3，具有多模态能力，实际评测表现优秀！

Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日，Anthropic推出了他们的第三代大语言模型Claude3，包含3个不同的版本，支持多模态和最高100万上下文输入！

2024/03/05 23:21:281,035

#Anthropic #Claude3

StarCoder2发布，开源编程大模型又一个强大选择！

StarCoder2发布，开源编程大模型又一个强大选择！

在近年来，随着人工智能技术的飞速发展，大型语言模型（LLM）在代码生成和编辑领域的应用越来越广泛，成为软件开发中不可或缺的助手。今天，我想向大家介绍一个由BigCode项目与Software Heritage合作开发的下一代代码大型语言模型——StarCoder 2。

2024/03/01 18:54:33958

#StarCoder2 #编程大模型

重磅！谷歌开源Gemini同源技术大模型Gemma，分别为70亿参数和20亿参数，同等规模参数评测极其优秀！

重磅！谷歌开源Gemini同源技术大模型Gemma，分别为70亿参数和20亿参数，同等规模参数评测极其优秀！

Google Gemini是谷歌最新推出的和OpenAI竞争的大语言模型。尽管Gemini褒贬不一，但是Gemini模型的影响力是巨大的。而现在更加令人激动的是谷歌开源了2个新的不同参数规模的模型，分别是Gemma 7B和Gemma 2B，其技术与Gemini模型一致。但是这两个开源模型完全公开，可以商用授权。

2024/02/21 22:02:282,840

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？Sora与此前的Stable Video Diffusion、Runway Gen2、Pika等有什么区别？OpenAI Sora的缺点是什么？

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？Sora与此前的Stable Video Diffusion、Runway Gen2、Pika等有什么区别？OpenAI Sora的缺点是什么？

OpenAI的Sora模型是最近两天最火热的模型。它生成的视频无论是清晰度、连贯性和时间上都有非常好的结果。在Sora之前，业界已经有了很多视频生成工具和平台。但为什么Sora可以引起如此大的关注？Sora生成的视频与此前其它平台生成的视频到底有哪些区别？有很多童鞋似乎对这些问题依然有疑问，本文将以通俗的语言解释Sora的独特之处。

2024/02/17 23:55:051,541

#OpenAISora #Sora

OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

OpenAI发布全新文本生成视频大模型Sora，可以生成无比逼真的最长60秒的视频，且生成的视频尺寸可以任意指定

OpenAI宣布发布全新的Diffusion大模型Sora，这是一个可以生成最长60秒视频的视频生成大模型，最大的特点是可以生成非常逼真的电影画面版的视频。

2024/02/17 09:45:121,703

#OpenAISora #Sora

MistralAI可能即将发布新的大语言模型，Mistral Next悄悄登场Chat Arena！

MistralAI可能即将发布新的大语言模型，Mistral Next悄悄登场Chat Arena！

MistralAI又悄悄地上线了另一个模型，即Mistral Next。相比之前的发布预训练种子引起大家猜测的方式，本次MistralAI又把模型发布玩出了花，他们没有公布任何信息，选择直接上架LM-SYS的大模型竞技场Chat Arena，让大家直接体验对比。

2024/02/16 18:28:04649

#MistralAI #MistralNext

OpenAI正在开发一个全新的基于大模型的Agent产品

OpenAI正在开发一个全新的基于大模型的Agent产品

今天The Information独家披露了一个令人兴奋的消息，那就是OpenAI正在开发一种Agent产品，可以通过控制用户的设备来帮助用户完成复杂的任务。

2024/02/08 20:28:56677

#AIAgent #ChatGPT新功能

MetaAI官宣开源编程大模型CodeLLaMA！基于LLaMA2微调！超越OpenAI的Codex，最高支持10万tokens输入！

MetaAI官宣开源编程大模型CodeLLaMA！基于LLaMA2微调！超越OpenAI的Codex，最高支持10万tokens输入！

MetaAI发布的LLaMA系列开源大语言模型已经是开源大模型领域最重要的力量了。相当多的所谓开源大模型都是基于这个模型微调得到。在上个月，LLaMA2发布，吸引了全球非常多的关注，也有相当多的后续模型基于LLaMA2进行优化。而今天MetaAI再次开源全新的编程大模型——CodeLLaMA系列，这是MetaAI第一次发布编程大模型，本次发布的CodeLLaMA共有9个版本，分别是CodeLLaMA系列、针对Python优化的CodeLLaMA-Python系列和针对指令优化的CodeLLaMA-Inst

2024/01/30 10:31:514,741

#CodeLLaMA #LLaMA2

OpenAI即将推出DALL·E Controls功能，可以更加精细化控制DALL·E图片生成的效果

OpenAI即将推出DALL·E Controls功能，可以更加精细化控制DALL·E图片生成的效果

DALL·E3是OpenAI推出的文本生成图片服务，背后也是一个文生图大模型。此前，该模型只能通过对话的方式让模型生成图片结果。无法通过配置信息控制模型输出的效果，包括风格、比例等。而最新的截图显示，OpenAI可能即将推出DALL·E Controls功能，可以从不同的方面来控制图片生成的效果。

2024/01/27 08:49:55565

#ChatGPT #DALL·EControls

OpenAI隐藏的一个ChatGPT新功能：在对话框中@任意GPTs，获得回答！一个巨大的由各种GPT组成的聊天世界即将到来

OpenAI隐藏的一个ChatGPT新功能：在对话框中@任意GPTs，获得回答！一个巨大的由各种GPT组成的聊天世界即将到来

在最新的ChatGPT的前端代码中，有网友发现了一个OpenAI隐藏的或者正在测试的功能，即在ChatGPT的对话中可以@ 任意GPTs商店中公开的GPTs，然后由这个GPTs为用户当前的对话进行回复，这个功能不需要用户离开当前对话页面。这意味着在一次对话中，我们可以与几百万个不同的GPTs同时协作聊天，就像一个巨大的聊天群，里面有无数个各种各样的GPT一起为你解决问题。

2024/01/26 20:29:021,129

#ChatGPT #ChatGPT新功能

OpenAI发布新一代向量大模型，接口已经更新到text-embedding-3-large，embedding长度升级，价格最高下降5倍！

OpenAI发布新一代向量大模型，接口已经更新到text-embedding-3-large，embedding长度升级，价格最高下降5倍！

决定向量检索准确性的核心是向量大模型的能力，即文本转成embedding向量是否准确。今天，OpenAI宣布了他们第三代向量大模型text-embedding，模型能力增强的同时价格下降！

2024/01/26 14:40:342,718

#OpenAI #text-embedding-3

GPT-5可能是什么样？网友总结了Sam在达沃斯论坛中的几场演讲，抽取了Sam演讲中包含的GPT-5相关的内容

GPT-5可能是什么样？网友总结了Sam在达沃斯论坛中的几场演讲，抽取了Sam演讲中包含的GPT-5相关的内容

OpenAI的CEO Sam最近参加了世界经济论坛，发表了几场演讲。有网友听了完整的Sam的4-5场演讲，并从中抽取了Sam关于GPT-5相关的论述。从中我们可以看到未来GPT-5可能的样子。这里为大家总结翻译一下。

2024/01/23 13:13:46877

大语言模型的开发者运维LLMOps来临，比MLOps概念还要新：吴恩达联合Google云研发人员推出免费的LLMOps课程

大语言模型的开发者运维LLMOps来临，比MLOps概念还要新：吴恩达联合Google云研发人员推出免费的LLMOps课程

MLOps的主要目标是创建一个更有效、可重复和可靠的机器学习工作流程。现在，随着大语言模型的流行，LLMOps概念也随之提出。即如何高效地开发大模型应用，包括自动化管理升级如prompt、模型评估等。为此，吴恩达联合Google的研发人员推出了最新的大模型短课LLMOps，帮助大家学习大语言模型开发过程中的自动化测试、自动化Prompt管理等一系列实践，提高大模型应用开发的效率和质量。

2024/01/21 21:37:30719

#AI教程 #吴恩达

智谱AI发布国产最强大模型GLM4，理解评测与数学能力仅次于Gemini Ultra和GPT-4，编程能力超过Gemini-pro，还有对标GPTs商店的GLMs

智谱AI发布国产最强大模型GLM4，理解评测与数学能力仅次于Gemini Ultra和GPT-4，编程能力超过Gemini-pro，还有对标GPTs商店的GLMs

GLM4是智谱AI发布的第四代基座大语言模型，全称General Language Model，最早由清华大学KEG小组再2021年发布。这个基座模型也是著名的开源国产大模型ChatGLM系列的基座模型。本次发布的第四代GLM4的能力相比此前的基座模型提升了60%，已经与世界最强模型Gemini Ultra和GPT-4接近！

2024/01/17 22:27:216,781

OpenAI正式开放ChatGPT Team订阅计划，价格每个月贵25%，更多的GPT-4，附ChatGPT付费计划对比

OpenAI正式开放ChatGPT Team订阅计划，价格每个月贵25%，更多的GPT-4，附ChatGPT付费计划对比

OpenAI今天开放了ChatGPT的Team版本的订阅计划，相比较普通的Plus会员版本，Team版本的计划价格更贵，但是可以使用更多的GPT-4额度。不过，与此前传闻比较少了很多功能，唯一比较吸引人的就是更多的GPT-4使用额度了。最少两个人合买。

2024/01/11 15:12:222,460

#ChatGPTPlus #ChatGPTTeam

OpenAI可能即将增加按年付费的选项，一年的ChatGPT Plus仅需200美元

OpenAI可能即将增加按年付费的选项，一年的ChatGPT Plus仅需200美元

在1月8日的ChatGPT网站的接口中，有人发现OpenAI增加了按年订阅的选项。接口返回的信息表示，ChatGPT的按年付费200美元即可，折算之后每个月大约16.66美元，一年立省40美元~

2024/01/09 16:21:582,272

#ChatGPT #ChatGPTPlus

MistralAI发布了Mixtral 8×7B MoE模型的论文，更详细的参数和对比结果~

MistralAI发布了Mixtral 8×7B MoE模型的论文，更详细的参数和对比结果~

在人工智能快速发展的今天，创新型模型如Mixtral 8x7B的出现，不仅推动了技术的进步，还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts（SMoE）架构的模型，不仅在技术层面上实现了创新，还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布，但是MistralAI今天才上传了这个模型的论文，我们可以看到更详细的信息。

2024/01/09 12:39:171,120

#MistralAI #Mixtral

如何解决大模型微调过程中的知识遗忘？香港大学提出有监督微调新范式并开源新模型LLaMA Pro

如何解决大模型微调过程中的知识遗忘？香港大学提出有监督微调新范式并开源新模型LLaMA Pro

大语言模型一个非常重要的应用方式就是微调（fine-tuning）。微调通常需要改变模型的预训练结果，即对预训练结果的参数继续更新，让模型可以在特定领域的数据集或者任务上有更好的效果。但是微调一个严重的副作用是可能会让大模型遗忘此前预训练获得的知识。为此，香港大学研究人员推出了一种新的微调方法，可以保证模型原有能力的基础上提升特定领域任务的水平，并据此开源了一个新的模型LLaMA Pro。

2024/01/09 12:09:471,826

#LLaMAPro #大语言模型微调

OpenAI的GPTs是如何被创建的？OpenAI的GPT Builder的工作原理和核心Prompt介绍

OpenAI的GPTs是如何被创建的？OpenAI的GPT Builder的工作原理和核心Prompt介绍

GPTs是OpenAI推出的用户自定义的GPT功能，这里的GPTs可以认为是specific GPT。用户创建GPTs主要是通过OpenAI提供的GPT Builder完成。GPT Builder提供的最基本的能力就是基于对话的方式来帮助用户创建GPTs。那么，这个对话式的GPT背后的指令是什么？官方设置了什么样的Prompt来让GPT帮助普通用户建立GPTs呢？本文基于官方最新的博客介绍一下。

2024/01/05 22:53:041,216

#GPTBuilder #GPTs

速度，2个月免费的GPT-4和Claude-2.1，PerplexityAI发布圣诞优惠~

速度，2个月免费的GPT-4和Claude-2.1，PerplexityAI发布圣诞优惠~

PerplexityAI是通过搜索引擎检索互联网的内容，然后使用大模型总结答案。产品形态有点像Bing的Bing Chat。圣诞节前夕，PerplexityAI提供了一个优惠代码，可以免费使用他们的2个月的Pro版本订阅服务。PerplexityAI的Pro版本提供GPT-4、Claude-2.1等大模型服务，支持生成图片和基于很长的PDF问答，这2个月的服务十分划算！

2023/12/24 14:28:271,781

#perplexity #perplexity.ai

OpenAI的GPT模型API接口新增的top_logprobs和logprobs参数是什么？有什么用处？为什么说这个参数可以帮助我们减轻大模型幻觉问题

OpenAI的GPT模型API接口新增的top_logprobs和logprobs参数是什么？有什么用处？为什么说这个参数可以帮助我们减轻大模型幻觉问题

在最新的OpenAI官方接口文档中，新增了top_logprobs和logprobs这2个参数。这2个参数是一起配合使用的。后者是一个布尔类型，表明模型的返回结果中是否增加输出每个token的概率，而top_logprobs参数是一个整数类型，取值范围是0-5之间。如果top_logprobs设置为true，那么模型会根据top_logprobs的设置结果，返回输出结果中每个token及其后续的n个单词的概率。

2023/12/17 14:24:191,698

#OpenAI #大模型困惑度

准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

今天，OpenAI在其官网上发布了一个全新的研究成果：一个利用较弱的模型来引导对齐更强模型的能力的技术，称为由弱到强的泛化。OpenAI认为，未来十年来将诞生超过人类的超级AI系统。但是，这会出现一个问题，即基于人类反馈的强化学习技术将终结。因为彼时，人类的水平不如AI系统，所以可能无法再对模型输出的内容评估好坏。为此，OpenAI提出这种超级对齐技术，希望可以用较弱的模型来对齐较强的模型。这样可以在出现比人类更强的AI系统之后可以继续让AI模型可以遵循人类的意志、偏好和价值观。

2023/12/16 08:08:231,092

#OpenAI #强人工智能

1...8910...21

专题合集

RAG（检索增强生成）Long Context 长上下文 AI Agent 实践

最热博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

Anubis——纽约大学计算机学生建立的学习管理系统和CloudIDE简介
马斯克创造的新的大模型企业xAI的大模型GrokAI模型评测结果出炉~MMLU与代码评分超过ChatGPT-3.5
强化学习的数学基础之马尔可夫链（Markov Chain）
Google Gemini Pro 1.5重大更新：新增音频理解、单次处理任何格式数据、更强大的函数调用和JSON模式，DataLeanrerAI实测音频理解能力优秀，且免费使用！
深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

大模型多模态评测基准MMMU介绍

通过JRI实现java与R的连接、通信

截止目前可能是全球最快的大语言模型推理服务：实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型