统计、机器学习与编程知识的原创博客

大型语言模型的新扩展规律（DeepMind新论文）——Training Compute-Optimal Large Language Models

3月29日，DeepMind发表了一篇论文，"Training Compute-Optimal Large Language Models"，表明基本上每个人--OpenAI、DeepMind、微软等--都在用极不理想的计算方式训练大型语言模型。论文认为这些模型对计算的使用一直处于非常不理想的状态。并提出了新的模型缩放规律。

2022/04/04 13:14:09 阅读 2713

deepmind/论文快讯/语言模型

HttpClient的使用方法案例

HttpClient的使用方法案例爬虫

2016-04-06 21:32:33 阅读 2715

Java/网络爬虫

python中Scrapy的安装详细过程

2016-09-18 08:30:30 阅读 2717

python/网络爬虫

通用人工智能（AGI）的进步需要可靠的评估基准。GPQA (Grade-Level Problems in Question Answering) Diamond 基准旨在衡量模型在需要深度推理和领域专业知识问题上的能力。该基准由纽约大学、CohereAI 及 Anthropic 的研究人员联合发布，其相关论文可在 arXiv 上查阅 (https://arxiv.org/pdf/2311.12022 )。GPQA Diamond是GPQA系列中最高质量的评测数据，包含198条结果。

2025/03/20 17:34:13 阅读 2721

GPQA/GPQADiamond/大模型评测/大模型评测基准/评测基准

!important属性和权重

2018/10/07 21:42:06 阅读 2727

!important和权重

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

在深度学习训练中，由于数据太大，现在的训练一般是按照一个批次的数据进行训练。批次大小（batch size）的设置在很多论文或者教程中都提示要设置为$2^n$，例如16、32等，这样可能会在现有的硬件中获得更好的性能。但是，目前似乎没有人进行过实际的测试，例如32的batch size与33的batch size性能到底有多大差别？德国的Thomas Bierhance做了一系列实验，以验证批次大小设置为2的幂次方是不是真的可以加速。

2022/07/05 22:28:32 阅读 2728

深度学习/训练技术

Jsoup使用演示

网络爬虫

2016-04-06 21:32:56 阅读 2741

JAVA/网络爬虫

【转载】全面解读ICML 2017五大研究热点 | 腾讯AI Lab独家解析

腾讯AI Lab去年四月成立，今年是首次参加ICML，共计四篇文章被录取，位居国内企业前列。此次团队由机器学习和大数据领域的专家、腾讯AI Lab主任张潼博士带领到场交流学习，张潼博士还担任了本届ICML领域主席。在本次130人的主席团队中，华人不超过10位，内地仅有腾讯AI Lab、清华大学和微软研究院三家机构。

2017/11/04 09:36:19 阅读 2753

学术/科研/顶级会议

Falcon-40B：截止目前最强大的开源大语言模型，超越MetaAI的LLaMA-65B的开源大语言模型

昨天，HuggingFace的大语言模型排行榜上突然出现了一个评分超过LLaMA-65B的大语言模型：Falcon-40B，引起了广泛的关注。本文将简要的介绍一下这个模型。截止2023年5月27日，Falcon-40B模型（400亿参数）在推理、理解等4项Open LLM Leaderloard任务上评价得分第一，超过了之前最强大的LLaMA-65B模型。

2023/05/27 22:11:32 阅读 2754

Falcon-40B/LLM/大语言模型

强烈推荐斯坦福大学的深度学习示意图网站

CS 230 ― Deep Learning是斯坦福大学视觉实验室（Stanford Vision Lab）的Shervine Amidi老师开设的深度学习课程，他在课程网站上挂了一个关于深度学习示意图的网站，这里面包含了各种深度学习相关概念的示意图和动图，十分简单明了。

2022/04/20 23:19:19 阅读 2761

深度学习

全球最大10个的SaaS企业简介

现代软件企业中，SaaS服务提供商是最值得注意的企业。因为SaaS行业规模大利润高，也是最有前景的一类企业。但是，国内市场因为很多因素导致SaaS的规模和空间都比较低。本文梳理一下全球最大的10个SaaS服务提供商，供大家参考。

2021/12/08 22:58:16 阅读 2780

云计算/创业企业

块级元素和行内元素以及转换

2018/10/09 13:38:01 阅读 2782

块级元素和行内元素

不同参数规模大语言模型在不同微调方法下所需要的显存总结

大模型的微调是当前很多人都在做的事情。微调可以让大语言模型适应特定领域的任务，识别特定的指令等。但是大模型的微调需要的显存较高，而且比较难以估计。与推理不同，微调过程微调方法的选择以及输入序列的长度、批次大小都会影响微调显存的需求。本文根据LLaMA Factory的数据总结一下大模型微调的显存要求。

2023/12/22 22:12:58 阅读 2787

大模型微调/微调显存/推理显存/显存大小

常见的正则表达式写法总结

正则表达式非常有用，非常强大，但也并不容易写，在这里我们总结一些常用的正则表达式写法

2017/11/18 09:20:50 阅读 2797

java/正则表达式

LFDMM源码剖析(融入词向量的概率图模型)

源码

2018/03/27 14:48:37 阅读 2807

源码

Saleforce发布最新的开源语言-视觉处理深度学习库LAVIS

Salesforce的研究人员开发了LAVIS（LAnguage-VISION的缩写），这是一个开源的库，用于在丰富的常见任务和数据集系列上训练和评估最先进的语言-视觉模型，并用于在定制的语言-视觉数据上进行现成的推理。

2022/09/25 08:25:06 阅读 2821

数据集/深度学习/计算机视觉/语言-视觉

强烈推荐！清华大学100亿参数规模的免费商用授权大模型：CPM-Bee 10B

最近几个月，国产大语言模型进步十分迅速。不过，大多数企业发布的大模型均为商业产品，少数开源的LLM则有较高的商业授权费用或者商用限制。对于希望使用LLM能力的中小企业以及个人来说都不是很合适。本次给大家介绍的是目前国产开源领域里面一个十分优秀且具有潜力的大语言模型CPM-Bee 10B。该模型来自清华大学NLP实验室，参数规模100亿，最重要的是对个人和企业用户均提供免费商用授权，十分友好！

2023/06/28 23:33:08 阅读 2823

CPM-Bee/国产大模型/开源大模型

《Effective Java 第三版》笔记之七消除过期的对象引用

本文是Effective Java第三版笔记的第七个之消除过期的对象引用，Item 7: Eliminate obsolete object references

2018/09/28 15:44:23 阅读 2825

effectivejava/java/编程

网络爬虫之httpclient的使用

2016-09-08 22:11:34 阅读 2839

httpclient/Java

为初学者、中级和有经验的开发者提供70多个python项目

为初学者、中级和有经验的开发者提供70多个python项目, 10000, 小木, PythonHub今天在推上给大家分享了一个非常棒的项目，就是这个为为初学者、中级和有经验的开发者提供70多个python项目。亲自动手实践一些项目可以增加我们的实际的编程技巧。每一次都做一点将会得到很多。很多人都在GitHub、Reddit或者是Quera上搜索过哪些项目可以让Python初学者、中级者增加经验的Python项目。这次它来了。

2021/06/14 20:13:13 阅读 2845

python/编程/项目

网络爬虫原理

网络爬虫指按照一定的规则（模拟人工登录网页的方式），自动抓取网络上的程序。

2016-09-08 22:03:06 阅读 2848

java/网络爬虫

dask的dataframe的值变成1和foo的解决方法

2020/05/08 14:30:53 阅读 2848

dask/python

2023年4月业界发布的重要20多个AI模型总结：OpenAssistant、Segment Anything Model、StableLM、AudioGPT等

2022年11月底，OpenAI发布ChatGPT，2023年3月14日，GPT-4发布。这两个模型让全球感受到了AI的力量。而随着MetaAI开源著名的LLaMA，以及斯坦福大学提出Stanford Alpaca之后，业界开始有更多的AI模型发布。本文将对4月份发布的这些重要的模型做一个总结，并就其中部分重要的模型进行进一步介绍。

2023/05/17 20:32:40 阅读 2860

2023年4月份AI模型/AI模型月报

主题模型结合词向量模型(Improving Topic Models with Latent Feature Word Representations)

2018/03/07 20:24:13 阅读 2868

词向量

最新博客