Original Blog

Original AI Tech Blogs

Explore the latest AI and LLM news and technical articles, covering original content and practical cases in machine learning, deep learning, and natural language processing.

Sort by

Sort by Date Sort by Views

OpenAI官方教程：如何针对大模型微调以及微调后模型出现的常见问题分析和解决思路~以GPT-3.5微调为例

OpenAI在2023年8月份发布了GPT-3.5的微调接口，并表示会在2023年秋天开放16K的gpt-3.5-turbo-16k模型和GPT-4的微调（参考：[重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口](https://www.datalearner.com/blog/1051692752268726 "重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口")）。然而，微调并不是一个简单的问题，如何对大模型微调以及如果微调出现问题

2023/08/23 11:46:596,171

#OpenAI #大模型微调

机器学习之正则化项

在我们给推荐问题建模时，神秘的正则化项L0、L1、L2的选择对模型很重要。为什么要加正则化？正则化有哪几种形式？到底该选择哪种正则化来建模呢？正则化项与推荐问题的关系？

2017/03/09 14:21:076,146

#L0 #L1

推荐模型：显式反馈模型VS隐式反馈模型

推荐中，有研究explict feedback，有研究implict feedback，今天就来谈谈这两种基本模型是怎么建的？其实，都是套路~

2017/03/09 14:22:126,141

#显式反馈模型 #隐式反馈模型

开源版本的GPT-3来临！Meta发布OPT大语言模型！

关注深度学习或者NLP的童鞋应该都知道openAI的GPT-3模型，这是一个非常厉害的模型，在很多任务上都取得了极其出色的成绩。然而，OpenAI的有限开放政策让这个模型的应用被限定在很窄的范围内。甚至由于大陆不在OpenAI的API开放国家，大家几乎都无法使用和体验。而五一假期期间，FaceBook的研究人员Susan Zhang等人发布了一个开源的大预言模型，其参数规模1750亿，与GPT-3几乎一样。

2022/05/05 23:00:566,024

#NLP #深度学习

亚马逊最新发布Feature Store简介

在2020年的亚马逊reInvent发布会上，亚马逊正式发布了一项新的服务，即Amazon SageMaker Feature Store，中文简介是适用于机器学习特征的完全托管的存储库。 Feature Store是这两年兴起的另一个关于人工智能系统的基础设施，应该也是未来几年最重要的人工智能基础设施之一。本文将介绍一下Feature Store是什么以及为什么很多企业开始推广这个东西。

2021/06/11 21:22:505,959

#AI #FeatureStore

Dirichlet Tree Distribution（狄利克雷树分布）

狄利克雷分布作为多项式分布的先验大家应该比较熟悉了。这里介绍另外一种Dirichlet树结构的分布，也可以作为多项式分布的先验，但却更加灵活

2017/02/06 21:17:005,906

#Dirichlet #分布

TF-IDF的java实现(权重排序显示)

2017-01-07 14:15:165,899

#java实现 #TF-IDF

R语言数据库操作（不定时更新）

R的数据库连接、操作

2017/04/05 21:27:045,844

#mysql #R

OpenAI最新的推理大模型o1与GPT-4o有什么区别？o1一定比o1 mini更强吗？一文总结OpenAI对o1模型的官方答疑

OpenAI的o1模型是当前最强大的具有超强推理能力的大语言模型。但是，o1模型本身的能力如何，o1版本和o1-mini版本模型的差异在哪等似乎都很不清晰。为此，OpenAI在Twitter上举办了一次AMA（Ask me anything）活动，解答了很多大家关心的问题。在这篇博客中，我们根据这个讨论结果总结了一下其中比较重要的信息供大家参考。

2024/09/16 19:37:215,805

#o1-mini #o1-preview

大模型驱动的自动代理（AI Agent）：将语言模型的能力变成通用能力的一种方式——来自OpenAI安全团队负责人的解释与观点

当前大模型本质是一种大语言模型（Large Language Models, LLM)，其核心能力是对语言的处理。良好的意图识别和文本生成能力让LLM超越了之前的模型，有了巨大的实用价值。但是，现实问题涉及了很多超越语言模型之外的能力，如基于最新数据的文本摘要、向用户提供实时数据分析和可视化结果、为代码提供debugging等。目前，让LLM解决这些问题的一个最有前景的方向就是建立大模型驱动的自动代理。也就是让LLM作为核心控制者来学会使用不同工具，进而完成最终任务。

2023/07/20 16:35:005,803

#AIAgent #LLM