标签

「大语言模型」相关文章

汇总「大语言模型」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#大语言模型

微软发布第四代Phi系列大模型，140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o，复杂推理能力大幅增强

Phi大语言模型是微软发布的一系列小规模大语言模型，其主要的目标是用较小规模参数的大语言模型达成较大参数规模的大语言模型的能力。就在今天，微软发布了Phi4-14B模型，参数规模仅140亿，但是数学推理能力大幅增强，在多个评测基准上甚至接近GPT-4o的能力。

2024/12/13 22:39:19753

#Phi #Phi-4

阿里巴巴开源第二代大语言模型Qwen2系列，最高参数规模700亿，评测结果位列开源模型第一，超过了Meta开源的Llama3-70B！

Qwen系列大语言模型是阿里巴巴开源的大语言模型。最早的Qwen模型在2023年8月份开源，当时只有70亿参数规模模型，随后阿里巴巴不断开源新的模型，最高参数规模达到了700亿，版本也从1.0升级到2024年3月份的1.5，再到今天发布的Qwen2系列。Qwen已经开源了几十个不同参数规模的大模型。此次发布的Qwen2.0系列不仅在评测任务上超过了现有的开源模型，也在实际应用中有非常好的表现。

2024/06/09 21:34:431,511

#Qwen2 #Qwen2-72B

如何解决大模型微调过程中的知识遗忘？香港大学提出有监督微调新范式并开源新模型LLaMA Pro

大语言模型一个非常重要的应用方式就是微调（fine-tuning）。微调通常需要改变模型的预训练结果，即对预训练结果的参数继续更新，让模型可以在特定领域的数据集或者任务上有更好的效果。但是微调一个严重的副作用是可能会让大模型遗忘此前预训练获得的知识。为此，香港大学研究人员推出了一种新的微调方法，可以保证模型原有能力的基础上提升特定领域任务的水平，并据此开源了一个新的模型LLaMA Pro。

2024/01/09 12:09:471,683

#LLaMAPro #大语言模型微调

让大模型支持更长的上下文的方法哪个更好？训练支持更长上下文的模型还是基于检索增强？

在大语言模型中，上下文长度是指模型可以考虑的输入数据的数量。更长的上下文在大语言模型的实际应用中有非常重要的价值。当前，让大语言模型支持更长的上下文有两种常用的方法，一种是训练支持更长上下文长度的模型，扩展模型的输入，另外一种是检索增强生成的方法（Retrieval Augmentation Generation，RAG）。但二者应该如何选择，这是一个很少能直接比较的问题。为此，英伟达（Nvidia）的研究人员做了一个详细的比较。

2023/10/10 15:28:482,445

#long-context #大语言模型