Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

如何对向量大模型（embedding models）进行微调？几行代码实现相关原理

大语言模型是通过收集少量专门数据对模型的部分权重进行更新后得到一个比通用模型更加专业的模型。但是，当前大家讨论较多的都是语言模型的微调，对于嵌入模型（或者向量大模型）的微调讨论较少。Modal团队的工作人员发布了一个博客，详细介绍了向量大模型的微调工作，本文将其翻译之后提供给大家（原文：https://modal.com/blog/fine-tuning-embeddings ）。

2024/07/21 17:08:453,648

#bge #RAG

Sequence-to-Sequence model

2019/03/27 21:18:523,644

#Sequence-to-Sequencemodel

SlimPajama：CerebrasAI开源最新可商用的高质量大语言模型训练数据集，含6270亿个tokens！

大语言模型训练的一个重要前提就是高质量超大规模的数据集。为了促进开源大模型生态的发展，Cerebras新发布了一个超大规模的文本数据集SlimPajama，SlimPajama可以作为大语言模型的训练数据集，具有很高的质量。除了SlimPajama数据集外，Cerebras此次还开源了处理原始数据的脚本，包括去重和预处理部分。官方认为，这是目前第一个开源处理万亿规模数据集的清理和MinHashLSH去重工具。

2023/06/11 23:16:023,639

#大模型训练 #大规模数据集

Java多线程网络爬虫(时光网为例)

2016-09-26 08:27:063,622

#Java #网络爬虫

全球最大（最挣钱）的十大开源企业

自从Hadoop生态发展以来，基于开源软件提供服务的盈利公司也越来越多。大家这才发现，开源不仅不会削弱企业竞争力，还可以带来生态，增强企业的竞争力。本文总结全球最挣钱的十大开源公司供大家参考。

2021/11/02 21:34:153,618

#开源

codeFest2018比赛的冠军解决方案——自然语言处理/计算机视觉/机器学习

2018/09/28 15:44:163,599

#机器学习 #比赛

SWE-bench大模型评测基准介绍：测试大模型在真实软件工程任务中的能力

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

2025/08/11 16:51:523,599

#大模型编程能力 #大模型评测

轮盘赌java算例

2018/03/21 10:42:453,588

#轮盘赌

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展的很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等。算法系统出现偏差的原因有很多。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因。

2021/11/07 22:31:253,588

#AI系统 #算法偏差

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型（Large Language Model，LLM）是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主，现在则基本上转成了Transformer的架构。尽管如此，Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇，主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:333,585

#LLM #RNN

CentOS搭建SVN服务器及使用Eclipse连接SVN服务器

SVN是Subversion的简称，是一个开放源代码的版本控制系统，相较于RCS、CVS，它采用了分支管理系统，它的设计目标就是取代CVS。互联网上很多版本控制服务已从CVS迁移到Subversion。说得简单一点SVN就是用于多个人共同开发同一个项目，共用资源的目的。

2017/09/01 15:47:583,565

#开发 #版本管理

122

221

2020/03/23 17:20:353,562

忆寺巷

我出生在一个不大不小的南方城市，那里纵横着大大小小的巷子，而通往我记忆深处的是寺巷子。

2017/04/13 21:48:573,555

#散文 #随笔

Linux权限管理之基本权限

2016-03-24 21:38:323,551

#Linux

机器学习项目流程清单

从问题定义，到数据获取以及模型选择调参，这篇博客指出了每个过程中需要注意的问题

2018/03/16 21:54:333,551

#数据挖掘 #机器学习

2018年7月份以来最好的机器学习的Github库和Reddit帖子

这是来自AnalyticsVidhya的Pranav Dar的帖子

2018/09/18 11:08:073,542

#机器学习

梯度下降、牛顿法、拟牛顿法详细介绍

2018/03/31 17:53:573,533

#拟牛顿法详细介绍 #梯度下降

不同参数规模大语言模型在不同微调方法下所需要的显存总结

大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务，识别特定的指令等。但是大模型的微调需要的显存较高，而且比较难以估计。与推理不同，微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

2023/12/22 22:12:583,513

#大模型微调 #微调显存

端到端（end-to-end）学习

2019/03/27 21:20:373,510

#端到端（end-to-end）学习

线性数据结构之跳跃列表（Skip List）详解及其Java实现

数据结构中，自平衡二叉查找树搜索效率高，但是需要通过旋转和变色维护平衡。而列表虽然简单，但是对元素的查找需要比对列表中的每个元素，查找速度较慢。为了兼顾列表的简单易用，并提高查找效率，跳跃列表（Skip List）应运而生。

2018/10/31 11:18:483,494

#列表 #数据结构

Java读取和操作上G文本数据

在处理文本时，经常遇到超过1g存储的数据，直接简单的读取，可能遇到java空间不足的问题，为解决此问题，可将大文本数据按照行进行切分为很多块，并将每一块存储为一个文本

2016-04-06 21:30:433,486

#java #文本挖掘

GPT-5 模式与配额全解析：自动与手动 Thinking 的区别、不同用户的使用配额问题等

GPT-5 在 ChatGPT 中引入了“自动在普通/推理间切换”的机制，但模式命名、配额规则和速率限制让许多用户困惑。本文梳理不同模式的作用、是否计入推理配额、各订阅层的可用性与限制、旧模型的替换规则，并提供三步配额优化策略。特别提示：编码与大上下文任务应优先使用 GPT-5 Thinking（≈196k 上下文），而普通 Chat 模式上下文为 32k。

2025/08/12 22:51:123,454

#ChatGPT #GPT-5

MySQL8授权用户远程连接失败，提示ERROR 1410 (42000): You are not allowed to create a user with GRANT

原来直接用root账户授权远程访问失败，最新的MySQL8不允许直接创建并授权用户远程访问权限，必须先让自己有GRANT权限，然后创建用户，再授权。

2022/07/31 12:55:023,444

#mysql

通过从零开始实现一个感知机模型，我学到了这些【转载】

本文转自雷锋网，原文《通过从零开始实现一个感知机模型，我学到了这些》，作者：恒亮，文章转载已获授权。感知器（英语：Perceptron）是Frank Rosenblatt在1957年就职于Cornell航空实验室（Cornell Aeronautical Laboratory）时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络，是一种二元线性分类器。本文介绍了搭建感知机模型的基本操作也包含了作者的一些心得。

2017/03/14 10:04:253,422

#人工智能 #感知机