统计、机器学习与编程知识的原创博客

【转载】全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

腾讯AI Lab去年四月成立，今年是首次参加ICML，共计四篇文章被录取，位居国内企业前列。此次团队由机器学习和大数据领域的专家、腾讯AI Lab主任张潼博士带领到场交流学习，张潼博士还担任了本届ICML领域主席。在本次130人的主席团队中，华人不超过10位，内地仅有腾讯AI Lab、清华大学和微软研究院三家机构。

2017/11/04 09:36:19 阅读 2753

学术/科研/顶级会议

Jsoup使用演示

网络爬虫

2016-04-06 21:32:56 阅读 2741

JAVA/网络爬虫

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

在深度学习训练中，由于数据太大，现在的训练一般是按照一个批次的数据进行训练。批次大小（batch size）的设置在很多论文或者教程中都提示要设置为$2^n$，例如16、32等，这样可能会在现有的硬件中获得更好的性能。但是，目前似乎没有人进行过实际的测试，例如32的batch size与33的batch size性能到底有多大差别？德国的Thomas Bierhance做了一系列实验，以验证批次大小设置为2的幂次方是不是真的可以加速。

2022/07/05 22:28:32 阅读 2728

深度学习/训练技术

!important属性和权重

2018/10/07 21:42:06 阅读 2727

!important和权重

GPQA Diamond：评估专家级推理能力的问答基准

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

2025/03/20 17:34:13 阅读 2721

GPQA/GPQADiamond/大模型评测/大模型评测基准/评测基准

python中Scrapy的安装详细过程

2016-09-18 08:30:30 阅读 2717

python/网络爬虫

HttpClient的使用方法案例

HttpClient的使用方法案例爬虫

2016-04-06 21:32:33 阅读 2715

Java/网络爬虫

大型语言模型的新扩展规律（DeepMind新论文）——Training Compute-Optimal Large Language Models

3月29日，DeepMind发表了一篇论文，"Training Compute-Optimal Large Language Models"，表明基本上每个人--OpenAI、DeepMind、微软等--都在用极不理想的计算方式训练大型语言模型。论文认为这些模型对计算的使用一直处于非常不理想的状态。并提出了新的模型缩放规律。

2022/04/04 13:14:09 阅读 2713

deepmind/论文快讯/语言模型

Pseudo-document-based Topic Model(基于伪文档的主题模型)的理解以及源码解读

2018/04/20 22:13:52 阅读 2709

源码

对比关系生成模型(Comparative Relation Generative Model)

2018/03/09 09:00:21 阅读 2707

生成模型

网络爬虫之java基础篇QueryRunner（Ⅲ）

网路爬虫数据库操作

2016-09-08 22:10:02 阅读 2706

Java/数据库/网络爬虫

神器！AI硬件基准测试库发布

2019/06/30 21:14:31 阅读 2684

人工智能

margin

2018/10/11 22:17:04 阅读 2679

margin

是否需要使用NumPy代替Pandas处理数据以提高性能？

Pandas和NumPy是Python数据科学领域中最基础的两个库，他们都可以读取大量的数据并对数据做计算等处理。有很多的操作他们都能做。那么，这两个Python库在数据处理的性能上有什么差别呢？今天在Reddit上看到一个有意思的讨论和大家分享一下。

2021/12/11 19:50:59 阅读 2674

numpy/pandas/python

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3：6B版本的ChatGLM3能力大幅增强，依然免费商用授权！

ChatGLM系列是智谱AI发布的一系列大语言模型，因为其优秀的性能和良好的开源协议，在国产大模型和全球大模型领域都有很高的知名度。今天，智谱AI开源其第三代基座大语言模型ChatGLM3-6B，官方说明该模型的性能较前一代大幅提升，是10B以下最强基础大模型！

2023/10/27 17:13:14 阅读 2670

ChatGLM/ChatGLM3

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

语音识别在实际应用中有非常多的应用。早先，OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类，也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper，它比Whisper-v2速度快6倍，参数小49%，而实际效果几乎没有区别。

2023/11/02 12:44:25 阅读 2667

Distil-Whisper/HuggingFace/Whisper/语音识别

智谱AI发布第二代CodeGeeX编程大模型：CodeGeeX2-6B，最低6GB显存可运行，基于ChatGLM2-6B微调

编程大模型是大语言模型的一个非常重要的应用。刚刚，清华大学系创业企业智谱AI开源了最新的一个编程大模型，CodeGeeX2-6B。这是基于ChatGLM2-6B微调的针对编程领域的大模型。

2023/07/25 15:26:41 阅读 2660

ChatGLM2-6B/CodeGeeX/CodeGeeX2-6B/编程大模型

Stable Diffusion2.1发布！

刚刚，StabilityAI宣布Stable Diffusion2.1发布。距离Stable Diffusion2.0大版本发布刚2个星期，2.1版本就发布了，2.1版本有诸多改进功能。

2022/12/08 00:33:51 阅读 2659

StabilityAI/StableDiffusion/Text-to-Image

康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架：LLMTune

Cornell Tech开源了LLMTune，这是一个可以在消费级显卡上微调大模型的框架，经过测试，可以在48G显存的显卡上微调4bit的650亿参数的LLaMA模型！

2023/05/14 23:42:57 阅读 2655

PEFT/大模型微调

页面内锚点

2018/09/29 20:58:34 阅读 2652

锚点

2023年9月份各大企业拥有的A100的GPU显卡数量

在高性能计算（HPC）、人工智能（AI）、和数据分析等领域，图形处理器（GPUs）正在发挥越来越重要的作用。其中，NVIDIA的 A100尤为引人注目。这是英伟达最强大的显卡处理器，也是当前使用最广泛大模型训练用的显卡。本文主要是各大企业最新的2023年9月份拥有的显卡数量统计。

2023/09/16 14:08:58 阅读 2650

A100/显卡

深度学习库

2017/05/08 08:57:40 阅读 2646

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法：逐步蒸馏（Distilling step-by-step）详解

华盛顿大学研究人员与Google的研究人员一起在5月3日公布了一个新的方法，即逐步蒸馏（Distilling step-by-step），这个方法最大的特点有2个：一是需要更少的数据来做模型的蒸馏（根据论文描述，平均只需要之前方法的一半数据，最多只需要15%的数据就可以达到类似的效果）；而是可以获得更小规模的模型（最多可以比原来模型规模小2000倍！）

2023/05/05 22:03:05 阅读 2644

模型蒸馏

《Effective Java 第三版》笔记之二当构造参数很多的时候考虑使用builder

本文是Effective Java第三版笔记的第二个之当构造参数很多的时候考虑使用builder

2018/09/17 22:15:33 阅读 2618

effectivejava/java

最新博客