DataLearner logoDataLearnerAI
Latest AI Insights
Model Leaderboards
Benchmarks
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish
DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by
Sort by DateSort by Views
如何对向量大模型(embedding models)进行微调?几行代码实现相关原理

如何对向量大模型(embedding models)进行微调?几行代码实现相关原理

大语言模型是通过收集少量专门数据对模型的部分权重进行更新后得到一个比通用模型更加专业的模型。但是,当前大家讨论较多的都是语言模型的微调,对于嵌入模型(或者向量大模型)的微调讨论较少。Modal团队的工作人员发布了一个博客,详细介绍了向量大模型的微调工作,本文将其翻译之后提供给大家(原文:https://modal.com/blog/fine-tuning-embeddings )。

2024/07/21 17:08:453,560
#bge#RAG
SlimPajama:CerebrasAI开源最新可商用的高质量大语言模型训练数据集,含6270亿个tokens!

SlimPajama:CerebrasAI开源最新可商用的高质量大语言模型训练数据集,含6270亿个tokens!

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展,Cerebras新发布了一个超大规模的文本数据集SlimPajama,SlimPajama可以作为大语言模型的训练数据集,具有很高的质量。除了SlimPajama数据集外,Cerebras此次还开源了处理原始数据的脚本,包括去重和预处理部分。官方认为,这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:023,562
#大模型训练#大规模数据集
轮盘赌java算例

轮盘赌java算例

2018/03/21 10:42:453,563
#轮盘赌
Baichuan系列大语言模型升级到第二代,百川开源的Baichuan2系列大模型详解,能力提升明显,依然免费商用授权

Baichuan系列大语言模型升级到第二代,百川开源的Baichuan2系列大模型详解,能力提升明显,依然免费商用授权

百川智能是前搜狗创始人王小川创立的一个大模型创业公司,主要的目标是提供大模型底座来提供各种服务。虽然成立很晚(在2023年4月份成立),但是三个月后便发布开源了Baichuan系列开源模型,并上架了Baichun-53B的大模型聊天服务。这些模型受到了广泛的关注和很高的平均。而2个月后,百川智能再次开源第二代baichuan系列大模型,其能力提升明显。

2023/09/09 10:28:293,582
#Baichuan2#baichuan2大模型
 Java多线程网络爬虫(时光网为例)

Java多线程网络爬虫(时光网为例)

Java多线程网络爬虫(时光网为例)

2016-09-26 08:27:063,601
#Java#网络爬虫
MySQL启用中文全文检索功能

MySQL启用中文全文检索功能

MySQL支持对文本进行全文检索,全文检索可以类似搜索引擎的功能,相比较模糊匹配更加灵活高效且更快。MySQL5.7之后也支持对中文的全文检索,这里描述如何启用MySQL的中文全文检索。

2018/05/09 08:53:543,606
#MySQL#全文检索
Sequence-to-Sequence model

Sequence-to-Sequence model

Sequence-to-Sequence model

2019/03/27 21:18:523,613
#Sequence-to-Sequencemodel
Eclipse打包Java工程并导出jar包

Eclipse打包Java工程并导出jar包

使用eclipse打包java工程并导出java包

2016-12-12 20:48:123,622
#程序
GPQA Diamond:评估专家级推理能力的问答基准

GPQA Diamond:评估专家级推理能力的问答基准

通用人工智能(AGI)的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布,其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据,包含198条结果。

2025/03/20 17:34:133,627
#GPQA#GPQADiamond
在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper:8GB显存即可针对你自己的数据建立ASR模型

在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper:8GB显存即可针对你自己的数据建立ASR模型

德国的一位博士生开源了一个使用LoRA(Low Rank Adaptation)技术和PEFT(Parameter Efficient Fine Tuning)方法对Whisper模型进行高效微调的项目。可以让大家在消费级显卡(显存8GB)上对OpenAI开源的WhisperV2模型进行微调!

2023/05/17 23:08:023,635
#ASR#LoRA
财大气粗!英伟达官方AI Playground提供可以免费使用的Stable Diffusion XL、LLaMA2、CLIP等模型

财大气粗!英伟达官方AI Playground提供可以免费使用的Stable Diffusion XL、LLaMA2、CLIP等模型

AI Playground最近的LLaMA2、Stable Diffusion XL等模型的进展也让大家看到了最新最强大的模型的能力。但是,对于大多数人来说,这些模型的使用依然具有较高的门槛,除了硬件资源消耗大,本身的部署也不容易。而支撑这些模型的一个重要的硬件因素就是英伟达的显卡。显卡已经超越一般理财,变得越来越贵。因此,基于大模型的免费服务成本也很高,而今天,英伟达官方的NGC网站推出了新的几款可以免费使用的大模型,包括聊天大模型LLaMA2、文本生成图片大模型Stable Diffusion等,基于

2023/08/10 13:43:213,643
#StableDiffusionXL#免费资源
参数估计之极大似然估计、极大后验估计和贝叶斯参数估计

参数估计之极大似然估计、极大后验估计和贝叶斯参数估计

这篇博客主要翻译自Gregor Heinrich的技术博客Parameter estimation for text analysis,介绍极大似然估计、极大后验估计和贝叶斯参数估计的原理和案例

2016-05-17 16:27:133,660
#参数估计#极大似然估计
网络爬虫存储数据的三种常见方式及其python实现

网络爬虫存储数据的三种常见方式及其python实现

网络爬虫

2019/03/27 21:14:293,662
#excel#Python
网络爬虫中Json数据的解析

网络爬虫中Json数据的解析

网络爬虫中Json数据的解析

2016-09-09 08:29:173,688
#java#json
《Effective Java 第三版》笔记之六 避免创建不必要的对象

《Effective Java 第三版》笔记之六 避免创建不必要的对象

2018/09/27 21:21:413,696
#effectivejava#java
抛弃Spark?Flink会是下一代大数据计算引擎吗?

抛弃Spark?Flink会是下一代大数据计算引擎吗?

2018/09/21 17:10:373,704
#flink#spark
神经网络发展简介

神经网络发展简介

看过很多书,都说了神经网络的进展,但总有一些小问题没有明白。这次基本上都明白了,记录一下。

2018/09/20 07:13:163,713
#深度学习#神经网络
使用卷积神经网络进行手写识别

使用卷积神经网络进行手写识别

本文是发在Medium上的一篇博客:《Handwritten Equation Solver using Convolutional Neural Network》。本文是原文的翻译。这篇文章主要教大家如何使用keras训练手写字符的识别,并保存训练好的模型到本地,以及未来如何调用保存到模型来预测。

2019/06/23 22:35:533,716
#卷积神经网络#深度学习
通过命令行的方式建立Dask集群

通过命令行的方式建立Dask集群

Dask的集群启动创建也很简单,有好几种方式,最简单的是采用官方提供dask-scheduler和dask-worker命令行方式。本文描述如何使用命令行方法建立Dask集群。

2020/05/06 11:41:093,755
#dask#python
DataLearnerAI发布中国国产开源大模型生态概览统计:国产开源大模型都有哪些?现状如何?

DataLearnerAI发布中国国产开源大模型生态概览统计:国产开源大模型都有哪些?现状如何?

随着GPT的一路爆火,国内大模型的开源生态也开始火热。各大商业机构和科研组织都在不断发布自己的大模型产品和成果。但是,众多的大模型产品眼花缭乱。为了方便大家追踪国产开源大模型的发展情况,DataLearnerAI发布了中国国产大模型生态系统全景统计(地址:https://www.datalearner.com/china-opensource-llm ),本文也将根据这个统计结果简单分析当前国产开源大模型的生态发展情况。

2023/11/10 17:26:563,755
#中文大模型#国产大模型
吴恩达联合OpenAI推出免费的面向开发者的ChatGPT Prompt工程课程——ChatGPT Prompt Engineering for Developers

吴恩达联合OpenAI推出免费的面向开发者的ChatGPT Prompt工程课程——ChatGPT Prompt Engineering for Developers

昨天,吴恩达宣布与OpenAI联合推出了一个新的面向开发者的ChatGPT的Prompt课程。课程主要教授大家如何使用Prompt做ChatGPT的应用开发、使用ChatGPT的新方法、建立自己的个性化的Chatbot,以及最重要的,基于OpenAI的API来练习Prompt工程技巧!

2023/04/28 09:59:543,803
#AI教程#PromptEngineering
123

123

123123

2020/08/03 10:34:513,806
tokens危机到来该怎么办?新加坡国立大学最新研究:为什么当前的大语言模型的训练都只有1次epoch?多次epochs的大模型训练是否有必要?

tokens危机到来该怎么办?新加坡国立大学最新研究:为什么当前的大语言模型的训练都只有1次epoch?多次epochs的大模型训练是否有必要?

epoch是一个重要的深度学习概念,它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而,在LLM时代,很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么,为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型,那么epoch次数设置为1是否足够,我们是否需要更多的训练?

2023/05/31 00:33:363,809
#tokens#大语言模型
什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型?

什么是推理大模型?DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么?什么时候该使用推理大模型?

最近,随着DeepSeek R1的火爆,推理大模型也进入大众的视野。但是,相比较此前的GPT-4o,推理大模型的区别是什么?它适合什么样的任务?推理大模型是如何训练出来的?很多人并不了解。本文将详细解释推理大模型的核心内容。

2025/02/08 18:05:033,820
#DeepSeekR1#OpenAIo1
Previous
1...282930...41
Next

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

Today's Picks

  • 截止目前中文领域最大参数量的大模型开源:上海人工智能实验室开源200亿参数的书生·浦语大模型(InternLM 20B系列),性能提升非常明显!
  • Meta即将推出开源的CodeLLaMA:一种新的编程AI模型
  • CerebrasAI开源可以在iPhone上运行的30亿参数大模型:BTLM-3B-8K,免费可商用,支持最高8K上下文输入,仅需3GB显存
  • 抛弃Spark?Flink会是下一代大数据计算引擎吗?
  • 123
gluon模型因Intert链接问题无法下载怎么办
  • AI系统中(机器学习算法)导致偏差的原因总结
  • 阿里开源Qwen3-Coder-Next:专为Agentic Coding而生的80B MoE的编程大模型,激活参数仅3B!