原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客，涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式

OpenAI官方教程：如何针对大模型微调以及微调后模型出现的常见问题分析和解决思路~以GPT-3.5微调为例

OpenAI在2023年8月份发布了GPT-3.5的微调接口，并表示会在2023年秋天开放16K的gpt-3.5-turbo-16k模型和GPT-4的微调（参考：[重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口](https://www.datalearner.com/blog/1051692752268726 "重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口")）。然而，微调并不是一个简单的问题，如何对大模型微调以及如果微调出现问题

2023/08/23 11:46:596,116

#OpenAI #大模型微调

推荐模型：显式反馈模型VS隐式反馈模型

推荐中，有研究explict feedback，有研究implict feedback，今天就来谈谈这两种基本模型是怎么建的？其实，都是套路~

2017/03/09 14:22:126,132

#显式反馈模型 #隐式反馈模型

机器学习之正则化项

在我们给推荐问题建模时，神秘的正则化项L0、L1、L2的选择对模型很重要。为什么要加正则化？正则化有哪几种形式？到底该选择哪种正则化来建模呢？正则化项与推荐问题的关系？

2017/03/09 14:21:076,140

#L0 #L1

大模型如何使用长上下文信息？斯坦福大学最新论文证明，你需要将重要的信息放在输入的开始或者结尾处！

大模型的长输入在很多场景下都有非常重要的应用，如代码生成、故事续写、文本摘要等场景，支撑更长的输入通常意味着更好的结果。昨天，斯坦福大学、加州伯克利大学和Samaya AI的研究人员联合发布的一个论文中有一个非常有意思的发现：当相关信息出现在输入上下文的开始或结束时，大模型的性能通常最高，而当大模型必须访问长上下文中间的相关信息时，性能显著下降。本文将简单介绍一下这个现象。

2023/09/17 22:22:406,227

#long-context #大模型

用python绘制散点图

如何使用python绘制简单的散点图

2019/03/27 21:13:006,311

#Python #散点图

运行dask程序报错：Task exception was never retrieved

运行本地dask集群的时候出错Task exception was never retrieved的解决方法

2021/06/07 22:42:036,313

#dask #python

SCI、SCIE、SSCI和EI期刊的含义与区别

SCI期刊可能是国内科研活动中与期刊最相关的话题内容。类似的，包括SCIE、SSCI和EI期刊也是常见的话题。本文将对这几个名词进行解释，并着重说明SCIE是否属于SCI、以及SCI和EI、SSCI的区别。

2021/05/16 00:47:086,323

#SCI #期刊

7种交叉验证（Cross-validation）技术简介（附代码示例）

交叉验证是一种用于估计机器学习模型性能的统计方法。它是一种评估统计分析结果如何推广到独立数据集的方法。简单来说，就是将数据集分成不同的部分，然后某些部分训练，某些部分测试，某些部分验证，这样可以最大程度避免过拟合以及测试模型在陌生数据集的性能。

2021/11/21 22:24:386,334

#交叉验证 #机器学习

Eclipse的Web开发环境搭建——从零开始入门介绍

使用Eclipse进行Web系统开发是一种非常流行的方式。本文将讲述如何从零开始搭建Eclipse的Web开发环境。

2017/08/31 22:03:496,407

#Eclipse #Web开发

Android开发中常见错误及其解决方法

在Android开发中，我们经常会遇到很多问题，这里记录了一些常见的问题及其解决方法

2017/11/08 11:15:326,421

#Android #移动编程

中文停用词表和英文停用词表

2019/03/27 21:21:036,461

#中文停用词表和英文停用词表

Scrapy网络爬虫实战[保存为Json文件及存储到mysql数据库]

2016-09-18 16:09:096,489

#python #网络爬虫框架

数据预处理中的高频词与低频词

在自然语言数据预处理阶段，为了提取更有用的信息，对数据必须进行相应处理。本文重点介绍对于高频词与低频词的处理。

2019/07/16 21:50:546,521

#文本处理

深度学习之Attention机制

Encoder-Decoder的深度学习架构是目前非常流行的神经网络架构，在许多的任务上都取得了很好的成绩。在之前的博客中，我们也详细介绍了该架构（参见深度学习之Encoder-Decoder架构）。本篇博客将详细讲述Attention机制。

2019/03/21 11:32:026,523

#Attention #RNN

一文看懂如何初始化神经网络

深度学习的初始化非常重要，这篇博客主要描述两种初始化方法：一个是Kaiming初始化，一个是LSUV方法。文中对比了不同初始化的效果，并将每一种初始化得到的激活函数的输出都展示出来以查看每种初始化对层的输出的影响。当然，作者最后也发现如果使用了BatchNorm的话，不同的初始化方法结果差不多。说明使用BN可以使得初始化不那么敏感了。

2019/06/21 17:20:496,694

#深度学习 #神经网络

如何抽取样本方差的分布

抽取样本方差的分布可以帮助我们生成很多其他分布的样本，例如生成一元高斯分布的样本就是可以通过方差分布来产生。这篇博客将描述如何抽取样本方差的分布。

2017/10/20 15:43:116,819

#抽样 #数学

Ubuntu 命令行指定GPU 运行 Python 程序

2018/12/19 10:59:446,832

#GPU #linux

智谱AI发布国产最强大模型GLM4，理解评测与数学能力仅次于Gemini Ultra和GPT-4，编程能力超过Gemini-pro，还有对标GPTs商店的GLMs

GLM4是智谱AI发布的第四代基座大语言模型，全称General Language Model，最早由清华大学KEG小组再2021年发布。这个基座模型也是著名的开源国产大模型ChatGLM系列的基座模型。本次发布的第四代GLM4的能力相比此前的基座模型提升了60%，已经与世界最强模型Gemini Ultra和GPT-4接近！

2024/01/17 22:27:216,834

#ChatGLM #GLM4