加载中...

原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客，涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式

指标函数（Metrics Function）和损失函数（Loss Function）的区别是什么？

指标（metrics）和损失函数（loss function）在深度学习和机器学习里面非常常见，很多时候他们的公式都似乎是一样的，在编写程序的时候，二者的区别好像也不是很大。那为什么还会有这两种不同的概念出现呢？本文将简单介绍一下二者的区别和应用。

2022/07/05 19:14:023,054

#指标函数 #损失函数

计算机视觉领域的六大任务简介

计算机视觉与自然语言处理是近几年人工智能领域进步最快以及应用最为成熟的两个方向。计算机视觉里面任务涉及面广，有很多细分领域，本文将对计算机视觉领域中比较常见的六种任务进行总结并同时展示以下相关任务的一些成绩。

2021/11/21 21:29:203,056

#CV #计算机视觉

主题模型聚类匹配2018TKDE阅读笔记（Topic Models for Unsupervised Cluster Matching）

主题模型聚类匹配

2018/04/24 16:48:573,059

#主题模型聚类匹配

如何让开源大模型支持ChatGPT的Code Interpreter能力：基于LangChain的开源项目Code Interpreter API

ChatGPT的Code Interpreter插件让ChatGPT突破了大语言模型本身只能做文本处理的限制，使其可以通过生成并执行Python代码来实现强大的数据分析、图片生成、视频数据处理等操作，大大拓展了ChatGPT的实用范围和价值。在此前的文章中，我们已经分析了Code Interpreter插件的官方实现。而今天，LangChain的官方博客也推出了一种类似的开源方案，让开源模型也可以实现ChatGPT的Code Interperter插件。我们简要描述一下这个方案。

2023/07/18 00:32:473,067

#ChatGPT #CodeInterpreter

国产开源中文大语言模型再添重磅玩家：清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

5月27日，OpenBMB发布了一个最高有100亿参数规模的开源大语言模型CPM-BEE，OpenBMB是清华大学NLP实验室联合智源研究院成立的一个开源组织。该模型针对高质量中文数据集做了训练优化，支持中英文。根据官方的测试结果，其英文测试水平约等于LLaMA-13B，中文评测结果优秀。

2023/05/31 23:07:403,081

#CPM-Bee #中文大模型

Java中自增操作i++与++i的区别

在Java中，自增是一种非常常见的操作，在自增中，有两种写法，一种是前缀自增（++i），一种是后缀自增（i++)。这里主要简单介绍两种自增的差别。

2019/09/07 15:17:283,083

#java #编程

Eclipse安装SVN插件

使用SVN进行项目的版本管理是非常流行的操作，这篇博客将描述Eclipse安装SVN的方法。

2017/09/01 15:48:483,087

#eclipse #svn

《Effective Java 第三版》笔记之一创建静态工厂方法而不是使用构造器

本文是Effective Java第三版笔记的第一个之创建静态工厂方法而不是使用构造器

2018/09/14 23:06:363,095

#effectivejava #java

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

2025/03/20 17:34:133,106

#GPQA #GPQADiamond

Microsoft Visual C++ 14.0 is required 的解决方案

Microsoft Visual C++ 14.0 is required

2019/03/27 21:15:193,113

#MicrosoftVisualC++14.0isrequired #python

三层Dirichlet 过程(非参贝叶斯模型)-来自Machine Learning

2018/04/20 22:20:243,123

#三层Dirichlet过程

TensorFlow学习——基本概念（1）

TensorFlow基本概念

2019/03/27 21:18:223,128

#TensorFlow基本概念

浮动

2018/10/09 14:39:263,156

#浮动

Keras框架下的保存模型和加载模型

2019/03/27 21:19:463,156

#Keras框架下的保存模型和加载模型

Topic model相关文章汇总

2017/11/15 08:42:593,161

#主题模型

R语言操作数据库

2016-05-25 22:00:243,175

#R语言 #数据库

hive数据操作

hive的使用方法

2016-04-06 21:32:473,195

#hadoop #hive

如何把一个目录下的所有文件，合并成一个文件

java 读写操作

2016-10-11 09:14:463,195

#java #数据处理

深度学习技巧之一

2018/09/25 10:22:473,215

#机器学习 #深度学习

Keras框架下输出模型中间层学习到的表示的两种常用方式

深度学习本质上是表示学习，它通过多层非线性神经网络模型从底层特征中学习出对具体任务而言更有效的高级抽象特征。针对一个具体的任务，我们往往会遇到这种情况：需要用一个模型学习出特征表示，然后将学习出的特征表示作为另一个模型的输入。这就要求我们会获取模型中间层的输出，下面以具体代码形式介绍两种具体方法。

2019/04/10 20:26:103,219

#Keras #中间层表示

模型中的参数和超参数

2019/03/27 21:20:133,237

#模型中的参数和超参数

强化学习的数学基础之马尔可夫链（Markov Chain）

马尔可夫链（Markov Chain）是由马尔可夫性质推导出来的一种重要的概率模型。马尔科夫链是一种离散时间的随机过程，作为现实世界的统计模型，有很多应用。在热力学、统计力学、排队理论、金融领域等都有重要的应用价值。作为一种离散时间的随机过程，与其对应的模型是马尔可夫过程（Markov Process），这是一种连续时间随机过程的模型。本节将主要介绍马尔科夫链。

2022/09/27 16:45:213,240

#强化学习 #强化学习系列教程

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

大语言模型（Large Language Model，LLM）是近几年进展最大的AI模型。早期的深度学习架构语言模型以RNN为主，现在则基本上转成了Transformer的架构。尽管如此，Transformer本身也是有着不同的区别。而本文是大语言模型系列中的一篇，主要介绍RNN模型与Transformer之间的区别。

2023/04/27 22:02:333,241

#LLM #RNN

Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)

在使用Dask进行两个dataframe的concatenate操作的时候抛出ValueError，本文记录这个错误以及解决方案。

2020/05/31 17:42:243,244

#dask #dataframe

加载中...

指标函数（Metrics Function）和损失函数（Loss Function）的区别是什么？

计算机视觉领域的六大任务简介

主题模型聚类匹配2018TKDE阅读笔记（Topic Models for Unsupervised Cluster Matching）

如何让开源大模型支持ChatGPT的Code Interpreter能力：基于LangChain的开源项目Code Interpreter API

国产开源中文大语言模型再添重磅玩家：清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

Java中自增操作i++与++i的区别

Eclipse安装SVN插件

《Effective Java 第三版》笔记之一 创建静态工厂方法而不是使用构造器

GPQA Diamond：评估专家级推理能力的问答基准

Microsoft Visual C++ 14.0 is required 的解决方案

三层Dirichlet 过程(非参贝叶斯模型)-来自Machine Learning

TensorFlow学习——基本概念（1）

浮动

Keras框架下的保存模型和加载模型

Topic model相关文章汇总

R语言操作数据库

hive数据操作

如何把一个目录下的所有文件，合并成一个文件

深度学习技巧之一

Keras框架下输出模型中间层学习到的表示的两种常用方式

模型中的参数和超参数

强化学习的数学基础之马尔可夫链（Markov Chain）

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)

指标函数（Metrics Function）和损失函数（Loss Function）的区别是什么？

计算机视觉领域的六大任务简介

主题模型聚类匹配2018TKDE阅读笔记（Topic Models for Unsupervised Cluster Matching）

如何让开源大模型支持ChatGPT的Code Interpreter能力：基于LangChain的开源项目Code Interpreter API

国产开源中文大语言模型再添重磅玩家：清华大学NLP实验室发布开源可商用大语言模型CPM-Bee

Java中自增操作i++与++i的区别

Eclipse安装SVN插件

《Effective Java 第三版》笔记之一 创建静态工厂方法而不是使用构造器

GPQA Diamond：评估专家级推理能力的问答基准

Microsoft Visual C++ 14.0 is required 的解决方案

三层Dirichlet 过程(非参贝叶斯模型)-来自Machine Learning

TensorFlow学习——基本概念（1）

浮动

Keras框架下的保存模型和加载模型

Topic model相关文章汇总

R语言操作数据库

hive数据操作

如何把一个目录下的所有文件，合并成一个文件

深度学习技巧之一

Keras框架下输出模型中间层学习到的表示的两种常用方式

模型中的参数和超参数

强化学习的数学基础之马尔可夫链（Markov Chain）

大语言模型的技术总结系列一：RNN与Transformer架构的区别以及为什么Transformer更好

Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)

《Effective Java 第三版》笔记之一创建静态工厂方法而不是使用构造器

《Effective Java 第三版》笔记之一创建静态工厂方法而不是使用构造器