Search blog

加载中...

DataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

Leaderboards
模型对比
Datasets

资源

Tutorials
Editorial
Tool directory

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款

Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

网络爬虫模拟登陆获取数据并解析实战（二）

网络爬虫模拟登陆获取数据并解析实战（二）

网络爬虫模拟登陆获取数据并解析实战

2016-09-09 08:33:543,245

#java #网络爬虫

Git的简介和使用

Git的简介和使用

Git是一个版本控制系统，用来追踪计算机文件的变化的工具，也是一个供多人使用的协同工具。它是一个分布式的版本控制系统，本文将简单介绍如何使用。

2018/04/05 09:51:363,247

#协作 #编程

通过从零开始实现一个感知机模型，我学到了这些【转载】

通过从零开始实现一个感知机模型，我学到了这些【转载】

本文转自雷锋网，原文《通过从零开始实现一个感知机模型，我学到了这些》，作者：恒亮，文章转载已获授权。感知器（英语：Perceptron）是Frank Rosenblatt在1957年就职于Cornell航空实验室（Cornell Aeronautical Laboratory）时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络，是一种二元线性分类器。本文介绍了搭建感知机模型的基本操作也包含了作者的一些心得。

2017/03/14 10:04:253,259

#人工智能 #感知机

线性数据结构之跳跃列表（Skip List）详解及其Java实现

线性数据结构之跳跃列表（Skip List）详解及其Java实现

数据结构中，自平衡二叉查找树搜索效率高，但是需要通过旋转和变色维护平衡。而列表虽然简单，但是对元素的查找需要比对列表中的每个元素，查找速度较慢。为了兼顾列表的简单易用，并提高查找效率，跳跃列表（Skip List）应运而生。

2018/10/31 11:18:483,259

#列表 #数据结构

如何对向量大模型（embedding models）进行微调？几行代码实现相关原理

如何对向量大模型（embedding models）进行微调？几行代码实现相关原理

大语言模型是通过收集少量专门数据对模型的部分权重进行更新后得到一个比通用模型更加专业的模型。但是，当前大家讨论较多的都是语言模型的微调，对于嵌入模型（或者向量大模型）的微调讨论较少。Modal团队的工作人员发布了一个博客，详细介绍了向量大模型的微调工作，本文将其翻译之后提供给大家（原文：https://modal.com/blog/fine-tuning-embeddings ）。

2024/07/21 17:08:453,276

Java读取和操作上G文本数据

Java读取和操作上G文本数据

在处理文本时，经常遇到超过1g存储的数据，直接简单的读取，可能遇到java空间不足的问题，为解决此问题，可将大文本数据按照行进行切分为很多块，并将每一块存储为一个文本

2016-04-06 21:30:433,286

#java #文本挖掘

SlimPajama：CerebrasAI开源最新可商用的高质量大语言模型训练数据集，含6270亿个tokens！

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展，Cerebras新发布了一个超大规模的文本数据集SlimPajama，SlimPajama可以作为大语言模型的训练数据集，具有很高的质量。除了SlimPajama数据集外，Cerebras此次还开源了处理原始数据的脚本，包括去重和预处理部分。官方认为，这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:023,315

#大模型训练 #大规模数据集

Linux权限管理之基本权限

Linux权限管理之基本权限

Linux权限管理之基本权限

2016-03-24 21:38:323,326

在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper：8GB显存即可针对你自己的数据建立ASR模型

在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper：8GB显存即可针对你自己的数据建立ASR模型

德国的一位博士生开源了一个使用LoRA（Low Rank Adaptation）技术和PEFT（Parameter Efficient Fine Tuning）方法对Whisper模型进行高效微调的项目。可以让大家在消费级显卡（显存8GB）上对OpenAI开源的WhisperV2模型进行微调！

2023/05/17 23:08:023,331

财大气粗！英伟达官方AI Playground提供可以免费使用的Stable Diffusion XL、LLaMA2、CLIP等模型

财大气粗！英伟达官方AI Playground提供可以免费使用的Stable Diffusion XL、LLaMA2、CLIP等模型

AI Playground最近的LLaMA2、Stable Diffusion XL等模型的进展也让大家看到了最新最强大的模型的能力。但是，对于大多数人来说，这些模型的使用依然具有较高的门槛，除了硬件资源消耗大，本身的部署也不容易。而支撑这些模型的一个重要的硬件因素就是英伟达的显卡。显卡已经超越一般理财，变得越来越贵。因此，基于大模型的免费服务成本也很高，而今天，英伟达官方的NGC网站推出了新的几款可以免费使用的大模型，包括聊天大模型LLaMA2、文本生成图片大模型Stable Diffusion等，基于

2023/08/10 13:43:213,341

#StableDiffusionXL #免费资源

端到端（end-to-end）学习

端到端（end-to-end）学习

端到端（end-to-end）学习

2019/03/27 21:20:373,345

#端到端（end-to-end）学习

AI系统中（机器学习算法）导致偏差的原因总结

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展的很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等。算法系统出现偏差的原因有很多。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因。

2021/11/07 22:31:253,346

#AI系统 #算法偏差

Baichuan系列大语言模型升级到第二代，百川开源的Baichuan2系列大模型详解，能力提升明显，依然免费商用授权

Baichuan系列大语言模型升级到第二代，百川开源的Baichuan2系列大模型详解，能力提升明显，依然免费商用授权

百川智能是前搜狗创始人王小川创立的一个大模型创业公司，主要的目标是提供大模型底座来提供各种服务。虽然成立很晚（在2023年4月份成立），但是三个月后便发布开源了Baichuan系列开源模型，并上架了Baichun-53B的大模型聊天服务。这些模型受到了广泛的关注和很高的平均。而2个月后，百川智能再次开源第二代baichuan系列大模型，其能力提升明显。

2023/09/09 10:28:293,352

#Baichuan2 #baichuan2大模型

梯度下降、牛顿法、拟牛顿法详细介绍

梯度下降、牛顿法、拟牛顿法详细介绍

梯度下降、牛顿法、拟牛顿法详细介绍

2018/03/31 17:53:573,353

#拟牛顿法详细介绍 #梯度下降

2018年7月份以来最好的机器学习的Github库和Reddit帖子

2018年7月份以来最好的机器学习的Github库和Reddit帖子

这是来自AnalyticsVidhya的Pranav Dar的帖子

2018/09/18 11:08:073,353

机器学习项目流程清单

机器学习项目流程清单

从问题定义，到数据获取以及模型选择调参，这篇博客指出了每个过程中需要注意的问题

2018/03/16 21:54:333,357

#数据挖掘 #机器学习

全球最大（最挣钱）的十大开源企业

全球最大（最挣钱）的十大开源企业

自从Hadoop生态发展以来，基于开源软件提供服务的盈利公司也越来越多。大家这才发现，开源不仅不会削弱企业竞争力，还可以带来生态，增强企业的竞争力。本文总结全球最挣钱的十大开源公司供大家参考。

2021/11/02 21:34:153,366

CentOS搭建SVN服务器及使用Eclipse连接SVN服务器

CentOS搭建SVN服务器及使用Eclipse连接SVN服务器

SVN是Subversion的简称，是一个开放源代码的版本控制系统，相较于RCS、CVS，它采用了分支管理系统，它的设计目标就是取代CVS。互联网上很多版本控制服务已从CVS迁移到Subversion。说得简单一点SVN就是用于多个人共同开发同一个项目，共用资源的目的。

2017/09/01 15:47:583,410

#开发 #版本管理

忆寺巷

忆寺巷

我出生在一个不大不小的南方城市，那里纵横着大大小小的巷子，而通往我记忆深处的是寺巷子。

2017/04/13 21:48:573,442

#散文 #随笔

codeFest2018比赛的冠军解决方案——自然语言处理/计算机视觉/机器学习

codeFest2018比赛的冠军解决方案——自然语言处理/计算机视觉/机器学习

2018/09/28 15:44:163,446

#机器学习 #比赛

122

122

221

2020/03/23 17:20:353,460

MySQL启用中文全文检索功能

MySQL启用中文全文检索功能

MySQL支持对文本进行全文检索，全文检索可以类似搜索引擎的功能，相比较模糊匹配更加灵活高效且更快。MySQL5.7之后也支持对中文的全文检索，这里描述如何启用MySQL的中文全文检索。

2018/05/09 08:53:543,466

#MySQL #全文检索

参数估计之极大似然估计、极大后验估计和贝叶斯参数估计

参数估计之极大似然估计、极大后验估计和贝叶斯参数估计

这篇博客主要翻译自Gregor Heinrich的技术博客Parameter estimation for text analysis，介绍极大似然估计、极大后验估计和贝叶斯参数估计的原理和案例

2016-05-17 16:27:133,474

#参数估计 #极大似然估计

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

epoch是一个重要的深度学习概念，它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而，在LLM时代，很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么，为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型，那么epoch次数设置为1是否足够，我们是否需要更多的训练？

2023/05/31 00:33:363,477

#tokens #大语言模型

1...262728...39

Topic Collections

RAG (Retrieval-Augmented Generation)Long Context (Large Language Models)AI Agent Practices

Hot Blogs

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8H5文件简介和使用

Today's Picks

帮助你提升知识和技能的17个数据科学项目（都是可以免费获取的）
一个非常有趣的数据工程师小游戏
Dirichlet Process and Stick-Breaking（DP的Stick-breaking 构造）
Java入门基础笔记-5
OpenAI正式开放ChatGPT Team订阅计划，价格每个月贵25%，更多的GPT-4，附ChatGPT付费计划对比
马斯克大模型企业xAI开源Grok-1，截止目前全球规模最大的MoE大模型，词汇表超过13万！
检索增强生成（RAG）方法有哪些提升效果的手段：LangChain在RAG功能上的一些高级能力总结

2021年适合初学者的10个最佳机器学习在线课程