大语言模型的技术博客 | 数据学习(Datalearner)

深度扩散模型中XX步配置的含义和影响

本文旨在为初学者和有一定机器学习基础的人解释深度扩散模型中XX步配置的含义及其对模型性能的影响。通过深入浅出的解释和实例，读者将能更好地理解这一概念，并在实践中加以应用。

深度学习 / 扩散模型 / 机器学习 / 配置 / 初学者指南

2023-11-29 09:30:53

391

SDXL Turbo：实时文本到图像生成模型的最新突破

本博客介绍了最新发布的SDXL Turbo模型，它采用了新的蒸馏技术，实现了单步图像生成并保持了高质量输出，大大减少了计算需求。同时，我们还将探讨其技术细节、性能优势以及如何在Clipdrop平台上测试这一模型。

SDXL Turbo / 文本到图像 / 模型 / AI / 技术

2023-11-29 08:30:46

311

如何在不访问专用实例的情况下提高GPT-4的吞吐量

本文介绍了@cursor_ai如何通过从基本原理出发，逆向工程预期的GPT-4延迟和内存使用情况，实现在不访问OpenAI专用实例的情况下，将GPT-4的吞吐量提高2-3倍的过程。

AI / 大模型 / GPT-4 / 吞吐量 / 内存带宽

2023-11-27 09:04:16

127

OpenHermes 2.5 Mistral 7B：跨越人机交流的新篇章

OpenHermes 2.5 Mistral 7B是一个最新的大型语言模型，它在多个非代码基准测试中表现出色，尤其在处理代码指令方面有显著提升。

AI / LLM / OpenHermes / 模型发布 / 技术博客

2023-11-26 23:37:20

493

Mistral 7B模型发布：73亿参数规模新突破

Mistral 7B模型是一个具有7.3亿参数的大模型，它在各项基准测试中超越了Llama 2 13B模型，并且在许多基准测试中超越了Llama 1 34B模型。该模型不仅在代码方面接近CodeLlama 7B的性能，同时在英语任务上也表现出色。

AI / 模型 / Mistral 7B / 性能 / 开源

2023-11-26 23:28:23

549

AI领域的新突破：OpenChat 3.5技术详解

近期AI领域出现了新的突破，OpenChat 3.5技术发布，其性能与OpenAI的ChatGPT相媲美，但模型大小仅为后者的三分之一。本文将详细介绍OpenChat 3.5的技术特点、性能对比以及其在AI对话模型领域的意义。

AI / OpenChat / 技术 / 模型 / 大模型

2023-11-26 23:19:37

1281

探索英特尔最新的大模型技术：NeuralChat 7B

本文将探讨英特尔最新发布的聊天模型NeuralChat 7B，该模型采用了无偏好数据的直接偏好优化（DPO）技术，在OpenLLM排行榜上名列前茅。我们将分析其技术细节、性能表现以及与其他模型的对比。

AI / 大模型 / 技术 / 英特尔 / NeuralChat 7B / DPO

2023-11-26 22:52:53

381

Orca 2：小型语言模型的推理能力提升之路

本文介绍了Orca 2模型，这是一个小型语言模型，通过改进的训练方法和信号，展现了与大型模型相匹敌的推理能力。

人工智能 / 语言模型 / Orca 2 / 小型模型 / 推理能力

2023-11-26 22:33:09

251

Whisper大模型v3发布：提升语音识别与翻译性能

OpenAI最新发布的Whisper大模型v3在语音识别和翻译方面展现出显著的性能提升，该模型在1百万小时的弱标签音频和4百万小时的伪标签音频上进行了训练，展示出强大的泛化能力。

AI / 语音识别 / 自然语言处理 / Whisper / OpenAI

2023-11-26 22:01:47

1593

SQLCoder2与SQLCoder-7B模型发布：7B参数规模与卓越性能

SQLCoder2与SQLCoder-7B模型正式开源，这两款模型分别基于StarCoder和Mistral-7B模型进行了微调，专注于处理SQL查询。SQLCoder2是一款15B参数的大型语言模型，而SQLCoder-7B则是首个7B参数规模的模型，几乎与SQLCoder2有相同的性能表现。在开源评估框架中，SQLCoder在训练中未见过的新模式上超越了所有可用的大型语言模型，除了GPT-4。当针对特定模式进行微调时，其性能甚至超过了所有模型，包括GPT-4。

AI / SQLCoder2 / SQLCoder-7B / 开源 / 性能评估

2023-11-26 21:33:10

1310

SQLCoder2与SQLCoder-7B发布：7B参数规模与卓越性能

近日，SQLCoder2与SQLCoder-7B两款大模型开源，其中SQLCoder2是原SQLCoder模型的显著改进版本，而SQLCoder-7B则是首个7B参数规模的模型，性能几乎与SQLCoder2相同。这两款模型在开源评估框架上的表现超越了除GPT-4外的所有可用大型语言模型，并在特定架构上的微调后，其性能甚至超越了GPT-4。

AI / 大模型 / SQLCoder / 开源 / 性能

2023-11-26 21:23:04

991

SQLCoder2与SQLCoder-7B模型发布：性能卓越，开源可用

近日，两款新的大模型SQLCoder2和SQLCoder-7B正式开源。这两款模型在开源评估框架中的表现超越了除GPT-4外的所有大型语言模型，尤其在特定架构的微调后，性能更是优于GPT-4。

AI / 大模型 / SQLCoder / 开源 / 性能

2023-11-26 21:19:53

935

英特尔Gaudi2加速器助力7B级聊天模型登顶LLM排行榜

本文介绍了英特尔公司如何利用Gaudi2 AI加速器进行监督式微调和直接偏好优化，以及其7B级聊天模型在LLM排行榜上的优异表现。

AI / 大模型 / 英特尔Gaudi2 / LLM排行榜 / 性能优化

2023-11-26 21:05:20

159

量化对大模型影响有多大？——KL散度测试深度解析

本文深入探讨了量化技术对大型AI模型的实际影响，并通过KL散度测试对不同量化级别的模型进行了比较分析。

AI / 大模型 / 量化 / KL散度 / 技术分析

2023-11-23 16:41:20

729

量化对大模型的影响究竟有多大？- KL散度测试深度解析

本文深入探讨了量化技术对大型AI模型的影响，通过KL散度的测试数据，为我们揭示了量化在不同程度上对模型预测能力的影响。

AI / 量化 / 大模型 / KL散度 / 技术分析

2023-11-23 16:39:27

693

量化对大模型的影响究竟有多大？- KL散度测试揭示真相

在AI领域，量化技术被广泛应用于优化大型模型的存储和计算效率。但量化会对模型的性能产生何种影响？本文通过KL散度测试，深入探讨了量化对不同大小模型的实际影响，揭示了量化对模型预测能力的具体影响程度。

AI / 大模型 / 量化 / KL散度 / 模型性能

2023-11-23 16:36:52

1802

解密Q*模型：AI领域的新突破还是威胁人类的灰洞？

近日，计算机科学界出现了一个神秘的新模型Q*，引发了广泛的讨论和猜测。这篇博客将深入探讨Q*模型的可能性、技术细节以及它对人工智能未来的意义。

AI / Q* / 计算机科学 / 人工智能 / 模型

2023-11-23 16:30:51

246

揭秘Q*：神秘的大模型技术革新

近日，一篇关于Q*的讨论激发了科技界的好奇心。Q*被认为是一种先进的人工智能（AGI），可能会对未来的人工智能发展产生重大影响。本文将探讨Q*的潜在能力以及它对行业和社会的潜在影响。

Q* / AGI / 计算机科学 / 人工智能 / 模型训练

2023-11-23 16:28:05

329

OpenAI内部动荡揭秘：人工智能新发现引发安全担忧

近日，OpenAI公司内部发生动荡，CEO Sam Altman被解雇的背后，是一封关于人工智能新发现的内部信函和对应的AI算法。本文将探讨这一事件的起因、过程以及可能的影响。

OpenAI / 人工智能 / Sam Altman / 安全担忧 / Q*项目

2023-11-23 14:24:15

555

人工智能的新突破与潜在风险：OpenAI内部动态揭秘

近日，OpenAI公司内部发生了一系列事件，包括CEO Sam Altman的离职以及一封关于人工智能新发现的内部信件。本文将深入探讨这些事件背后的技术发展和潜在风险。

人工智能 / OpenAI / Sam Altman / AI安全 / AGI

2023-11-23 14:09:30

130

OpenAI的Q*项目：人工智能的新突破还是潜在威胁？

近日，OpenAI的CEO Sam Altman被解雇前夕，公司内部研究人员向董事会发出警告信，提到一个强大的人工智能发现可能对人类构成威胁。本文将探讨这一事件背后的技术发展，以及它对人工智能领域未来的意义。

人工智能 / OpenAI / Q* / AGI / 技术发展

2023-11-23 14:07:33

321

大模型技术进阶：Claude 2.1的新突破

本文介绍了最新的大模型技术Claude 2.1的核心进展，包括200K token上下文窗口、减少幻觉率、系统提示和新的beta工具使用功能。

大模型技术 / AI / 计算机 / Claude 2.1 / API

2023-11-22 23:25:20

863

大模型技术的未来：本地化与开源的重要性

随着大模型技术的不断发展，越来越多的讨论开始聚焦于模型的本地化和开源性。本文将探讨大模型技术的未来趋势，以及本地化和开源对于AI安全和用户体验的重要性。

大模型技术 / 本地化 / 开源 / AI安全 / 计算机领域

2023-11-22 23:06:47

531

大模型技术对比：ChatGPT-4与Claude的详细写作风格指导

本文将对比ChatGPT-4与Claude在接受详细写作风格指导后的表现，探讨大模型在内容创作上的优势与局限性，并提供专业的理解和见解。

ChatGPT-4 / Claude / 大模型 / 写作风格 / SEO

2023-11-21 20:03:46

473

LangChain与GPTs的技术对比与选择

本文将探讨LangChain和Hugging Face框架相对于GPTs的优势，以及在自动化提示和连接APIs的情景下，哪种技术方案更为合适。

LangChain / GPTs / Hugging Face / API / 技术对比

2023-11-21 19:59:53

515

Orca 2：小型语言模型的巨大飞跃

本文将介绍最新发布的Orca 2模型，这是一个具有7亿至13亿参数的小型语言模型，它在复杂任务中展示了与大型模型相似甚至更优的推理能力。

人工智能 / 语言模型 / Orca 2 / 计算机科学

2023-11-21 19:42:24

398

Orca 2：小型语言模型的推理能力大突破

Orca 2模型的出现，标志着小型语言模型在推理能力上的重大进步。本文将深入探讨Orca 2的特点、价值以及其在小型模型上的创新应用。

Orca 2 / 语言模型 / 人工智能 / 计算机科学

2023-11-21 19:40:01

173

Orca 2：小型语言模型的理性思维新突破

本文将介绍最新的小型语言模型Orca 2，它的参数、特点以及价值。Orca 2在训练信号和方法的改进下，以小型语言模型实现了增强的推理能力。本文将深入解析Orca 2的训练方法和优势，并对其进行详细的介绍。

人工智能 / 语言模型 / Orca 2 / 计算机科学

2023-11-21 19:34:06

148

GPT-4-128K长文本回忆压力测试：深度理解模型性能

本文基于对GPT-4-128K模型的长文本回忆压力测试讨论，深度剖析了模型在处理长文本时的性能表现，以及如何优化使用模型的策略。文章旨在帮助读者更加深入理解模型的工作原理，并提出有效的使用策略。

GPT-4 / AI / 模型性能 / 长文本回忆 / 压力测试

2023-11-09 17:57:41

584

GPT4-V：大模型技术中图像与文本结合的探索

本文探讨GPT4-V模型中图像处理的计费策略，结合图像和文本处理技术来分析模型的架构设计，并通过相关讨论来抛砖引玉，希望能对大家有所启发。

NLP / 计算机视觉 / 图像处理 / GPT4-V

2023-11-07 11:51:54

278

第4页

R语言技巧总结笔记

不更改一行AI模型的代码加速你的模型训练过程——AI模型训练加速库Nebulgym简介

AI系统中（机器学习算法）导致偏差的原因总结

吴恩达AI系列短课再添精品课程：如何基于LangChain使用LLM构建私有数据的问答系统和聊天机器人

分解机（Factorization Machine, FM）模型简介以及如何使用SGD、ALS和MCMC求解分解机

重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口

OpenAI的GPTs是如何被创建的？OpenAI的GPT Builder的工作原理和核心Prompt介绍

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

最新消息显示OpenAI可能还在训练GPT-5，可能在今年年中发布GPT-5

最热博客

Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）

回归模型中的交互项简介（Interactions in Regression）

贝塔分布（Beta Distribution）简介及其应用

矩母函数简介（Moment-generating function）

普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程

使用R语言进行K-means聚类并分析结果

深度学习技巧之Early Stopping（早停法）

H5文件简介和使用

手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Wishart分布简介

今日推荐

最热博客