人工智能(AI)领域论文快讯

业界首个大规模中文科学文献数据集——CSL发布

科学文献是一个高质量的语料库,支持大量的自然语言处理(NLP)研究。然而,现有的数据集是以英语为中心的,这限制了中文科学NLP的发展。在这项工作中,我们提出了CSL,一个大规模的中文科学文献数据集,它包含了396k篇论文的标题、摘要、关键词和学术领域。就我们所知,CSL是第一个中文科学文献数据集。CSL可以作为一个中文语料库。同时,这种半结构化的数据是一种自然的注释,可以构成许多有监督的NLP任务。基于CSL,我们提出了一个基准来评估模型在科学领域任务中的表现,即总结、关键词生成和文本分类。我们分析了现有文本到文本模型在评估任务上的行为,并揭示了中文科学NLP任务所面临的挑战,这为未来的研究提供了宝贵的参考。

数据集 2022-10-02 23:11:00.288 9
更小更快更精准的对象检测模型——SuperYOLO发布

准确检测多尺度小目标并使用遥感图像(RSI)实现实时检测仍然具有挑战性,特别是对于军事侦察和紧急救援等时间敏感任务。为了获得这些小目标的精确位置和分类,最适用的解决方案之一是融合多模态图像中的互补信息,以提高检测能力。现有的大多数解决方案主要设计一个复杂的深度神经网络来学习与背景分离的对象的强大特征表示,这通常会导致沉重的计算负担。 在本文中,我们提出了一种精确而快速的RSI小目标检测方法SuperYOLO,该方法融合多模式数据,通过利用辅助超分辨率(SR)学习并考虑检测精度和计算成本,对多尺度对象执行高分辨率(HR)目标检测。首先,我们通过删除Focus模块来构建一个紧凑的基线,以保留HR特征并显著克服小对象的丢失错误。其次,我们利用像素级多模式融合(MF)从各种数据中提取信息,以便为RSI中的小对象提供更合适和有效的特征。此外,我们设计了一个简单而灵活的SR分支来学习HR特征表示,该特征表示可以用低分辨率(LR)输入区分广阔背景中的小目标,从而进一步提高检测精度。此外,为了避免引入额外的计算,在推理阶段丢弃了SR分支,并且由于LR输入减少了网络模型的计算。实验结果表明,在广泛使用的VEDAI RS数据集上,SuperYOLO的准确率为73.61%(以mAP50计),比SOTA大型模型(如YOLOv5l、YOLOv 5x和RS设计的YOLOR)高出10%以上。同时,SuperYOLO的GFOLP和参数大小约为YOLOv5x的18.1倍和4.2倍。与最先进的模型相比,我们提出的模型显示出良好的精度-速度权衡。

YOLO/对象检测 2022-10-02 12:13:45.470 4
更好细节的3D对象生成模型——NVIDIA开源GET3D模型代码和训练

随着多个行业正朝着建模大规模3D虚拟世界的方向发展,人们越来越需要能够根据3D内容的数量、质量和多样性进行扩展的内容创建工具。在我们的工作中,我们的目标是训练性能良好的3D生成模型,该模型可以合成可直接由3D渲染引擎使用的纹理网格,从而立即在下游应用程序中使用。之前关于3D生成建模的工作要么缺乏几何细节,要么只能生成有限的网格拓扑,通常不支持纹理,要么在合成过程中使用神经渲染器,这使得它们在通用3D软件中的使用非常重要。在这项工作中,我们介绍了GET3D,这是一种生成模型,可以直接生成具有复杂拓扑、丰富几何细节和高保真纹理的显式纹理3D网格。我们将最近在可微分曲面建模、可微分渲染以及2D生成对抗网络方面取得的成功联系起来,从2D图像集合中训练我们的模型。GET3D能够生成高质量的3D纹理网格,从汽车、椅子、动物、摩托车和人物到建筑物,与以前的方法相比有了显著的改进。

3D对象生成 2022-10-02 10:20:41.872 6
基于文本生成可变长度的视频模型发布Phenaki

我们提出了Phenaki,一个能够给定一连串文字提示的现实视频合成的模型。由于计算成本、高质量文本-视频数据的数量有限以及视频长度的变化,从文本中生成视频特别具有挑战性。为了解决这些问题,我们引入了一个新的因果模型来学习视频表示,该模型将视频压缩为一个小的离散标记表示。这个标记器在时间上是自动回归的,这使它能够与不同长度的视频表示一起工作。 为了从文本中生成视频标记,我们使用了一个以预先计算的文本标记为条件的双向掩码变换器。生成的视频标记随后被去标记化,以创建实际的视频。为了解决数据问题,我们展示了在图像-文本对的大型语料库以及数量较少的视频-文本实例上的联合训练如何能够导致超越视频数据集所提供的泛化效果。与以前的视频生成方法相比,Phenaki可以在开放的领域中以一连串的提示(即时间可变的文本或故事)为条件生成任意的长视频。据我们所知,这是第一次有论文研究从时间变量提示中生成视频。

text-to-video 2022-09-30 15:26:10.705 35
文本转3D模型来了—谷歌研究院最新成果DreamFusion

最近在文本-图像合成方面的突破是由在数十亿图像-文本对上训练的扩散模型推动的。将这种方法应用于三维合成需要大规模的标记三维数据集和高效的三维数据去噪架构,而这两者目前都不存在。在这项工作中,我们通过使用预先训练好的二维文本到图像的扩散模型来执行文本到三维的合成,从而规避了这些限制。我们引入了一种基于概率密度蒸馏的损失,使得二维扩散模型可以作为优化参数化图像生成器的先验。在一个类似DeepDream的程序中使用这种损失,我们通过梯度下降法优化一个随机初始化的三维模型(一个神经辐射场,或NeRF),使其从随机角度的二维渲染达到低损失。由此产生的给定文本的三维模型可以从任何角度观看,通过任意的照明重新点亮,或者合成到任何三维环境中。我们的方法不需要3D训练数据,也不需要修改图像扩散模型,这证明了预训练的图像扩散模型作为先验因素的有效性。

text-to-3d/生成模型 2022-09-30 15:03:00.768 40
最新的Text-to-Video来了——Meta AI的Make-A-Video模型

我们提出了Make-A-Video——一种直接将文本到图像(T2I)生成的最新巨大进展转换为文本到视频(T2V)的方法。我们的直觉很简单:从成对的文本图像数据中了解世界的样子和描述方式,并从无监督的视频片段中了解世界是如何移动的。Make-A-Video有三个优点:(1)它加快了T2V模型的训练(它不需要从头开始学习视觉和多模态表示),(2)它不需要成对的文本视频数据,以及(3)生成的视频继承了当今图像生成模型的广度(审美、幻想描述等方面的多样性)。我们设计了一种简单而有效的方法,用新颖有效的时空模块建立T2I模型。首先,我们分解全时间U-Net和注意张量,并在空间和时间上近似它们。其次,我们设计了一个时空流水线来生成高分辨率和帧速率视频,其中包括视频解码器、插值模型和两个超分辨率模型,这两个模型可以支持T2V以外的各种应用。Make-A-Video在空间和时间分辨率、对文本的忠实度和质量等各个方面都开创了文本到视频生成的最新技术,这是由定性和定量两个指标决定的。

text-to-image/text-to-video/生成式模型 2022-09-30 00:37:16.922 19
最新的文本摘要基准评价数据集来了——GPT3时代的文本摘要数据集

最近,GPT-3等模型的零次和少次提示的成功导致了NLP研究的范式转变。本文研究了它对文本摘要的影响,重点是新闻摘要的经典基准领域。首先,我们研究了零镜头GPT-3与在大型总结数据集上训练的微调模型的比较。我们表明,人类不仅压倒性地更喜欢GPT-3摘要,而且这些摘要也不会受到常见的数据集特定问题的影响,如事实性差。接下来,我们研究这对评估意味着什么,特别是金标准测试集的作用。我们的实验表明,基于参考和无参考的自动度量,例如最近提出的QA或基于包含的事实性方法,都不能可靠地评估零机会摘要。最后,我们讨论了泛型总结之外的未来研究挑战,特别是基于关键字和方面的总结,展示了占主导地位的微调方法与零镜头提示相比如何。 为了支持进一步的研究,我们发布了:(a)从4个标准总结基准的微调和零镜头模型生成的10K摘要语料库,(b) 1K人类偏好判断和理由,比较了基于通用和关键字的总结的不同系统。

textsummarization/数据集/文本摘要 2022-09-28 11:22:33.295 10
HuggingFace发布few-shot神器SetFit

最近的一些方法,如参数有效微调(PEFT)和模式利用训练(PET),在标签稀缺的情况下取得了令人印象深刻的结果。然而,它们很难被采用,因为它们受制于手工制作的提示语的高变异性,并且通常需要十亿个参数的语言模型来实现高精确度。为了解决这些缺陷,我们提出了SetFit(句子变换器微调),这是一个高效且无提示的框架,用于对句子变换器(ST)进行少量微调。SetFit的工作原理是,首先以对比连带的方式,在少量的文本对上对预训练的ST进行微调。然后,产生的模型被用来生成丰富的文本嵌入,这些嵌入被用来训练一个分类头。这个简单的框架不需要任何提示或口头语,并且以比现有技术少几个数量级的参数实现了高精确度。我们的实验表明,SetFit获得了与PEFT和PET技术相当的结果,同时其训练速度快了一个数量级。我们还表明,SetFit可以在多语言环境中应用,只需切换ST主体即可。我们的代码可以在这个https URL上找到,我们的数据集可以在这个https URL上找到。

few-shotlearning/transformers 2022-09-27 23:17:05.134 12
接近人类水平的开源语音识别模型来了——OpenAI的Whisper

我们研究了语音处理系统的能力,这些系统仅仅是为了预测互联网上的大量音频文本而训练的。当扩展到68万小时的多语言和多任务监控时,生成的模型可以很好地推广到标准基准测试,并且通常与以前的完全监控结果相竞争,但在零触发传输设置中不需要任何微调。与人类相比,模型接近其准确性和鲁棒性。我们正在发布模型和推理代码,作为进一步研究鲁棒语音处理的基础。

语音识别 2022-09-22 16:03:16.652 39
Google生产环境中的推荐系统大揭秘——工业规模的广告推荐模型的ML工程

对于工业规模的广告系统,广告点击率(CTR)的预测是一个核心问题。广告点击率构成了用户参与的一个重要类别,并经常被用作广告对用户有用性的主要信号。此外,在按点击率收费的广告系统中,广告商按点击率收费,点击率预期直接反馈到价值评估中。因此,对于大多数互联网广告公司来说,点击率模型的开发是一项重大投资。针对此类问题的工程需要许多适合在线学习的机器学习(ML)技术,这些技术远远超出了传统的准确性改进,特别是关于效率、可重复性、校准、信用归属。我们提出了一个部署在谷歌搜索广告CTR模型中的实用技术的案例研究。本文提供了一个行业案例研究,强调了当前ML研究的重要领域,并说明了如何在大规模的工业环境中评估有影响力的新ML方法并使其发挥作用。

推荐系统/案例研究 2022-09-14 09:21:44.477 9
视觉与自然语言多模态预训练模型的综述来了

在过去的几年里,预训练模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单模态领域带入了一个新时代。大量的工作表明它们有利于下游的单模态任务,避免从头开始训练新的模型。那么,这种预训练的模型能否应用于多模态任务?研究人员已经探索了这个问题并取得了重大进展。本文调查了视觉语言预训练(VLP)的最新进展和新领域,包括图像-文本和视频-文本预训练。为了让读者对VLP有一个更好的整体把握,我们首先从五个方面回顾了它的最新进展:特征提取、模型结构、预训练目标、预训练数据集和下游任务。然后,我们详细总结了具体的VLP模型。最后,我们讨论了VLP的新前沿。据我们所知,这是第一个专注于VLP的调查。我们希望这项调查能够为VLP领域的未来研究带来启示。

cv/nlp/综述 2022-09-11 11:07:17.628 53
YOLO V7来临!刚刚台湾省中央研究院资讯科学研究所研究人员发布最新版本YOLO

YOLOv7在5 FPS到160 FPS范围内的速度和准确度都超过了所有已知的物体检测器,并且在GPU V100上30 FPS或更高的所有已知实时物体检测器中具有最高的准确度56.8% AP。YOLOv7-E6物体检测器(56 FPS V100, 55.9% AP)比基于变压器的检测器SWIN-L Cascade-Mask R-CNN(9.2 FPS A100, 53. 9%)的速度和2%的准确率,以及基于卷积的检测器ConvNeXt-XL级联掩码R-CNN(8.6 FPS A100, 55.2% AP)的速度和0.7%的准确率,以及YOLOv7的表现。YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR、DINO-5scale-R50、ViT-Adapter-B和其他许多物体检测器在速度和准确度方面的表现。此外,我们只在MS COCO数据集上从头开始训练YOLOv7,不使用任何其他数据集或预训练的权重。

YOLO系列/计算机视觉 2022-07-07 11:28:34.399 157
Meta(原FaceBook)人工智能研究院最新论文——新一代机器翻译系统

在消除全球范围内的语言障碍这一目标的驱动下,机器翻译已经巩固了自己作为当今人工智能研究的一个关键焦点。然而,这些努力都是围绕着一小部分语言进行的,而把绝大多数低资源的语言抛在了后面。要打破200种语言的障碍,同时确保安全、高质量的结果,并将道德因素牢记于心,这需要什么呢?在 "不落下任何一种语言 "中,我们接受了这一挑战,首先通过对母语人士的探索性访谈,将低资源语言翻译支持的需求情境化。然后,我们创建了数据集和模型,旨在缩小低资源语言和高资源语言之间的性能差距。更具体地说,我们开发了一个基于稀疏门控专家混合物的条件计算模型,该模型是在使用为低资源语言量身定做的新颖有效的数据挖掘技术获得的数据上进行训练的。我们提出了多种架构和训练方面的改进,以便在对数千项任务进行训练时抵制过度拟合。关键是,我们使用人类翻译的基准,Flores-200,评估了超过40,000个不同翻译方向的性能,并将人类评估与涵盖Flores-200中所有语言的新型毒性基准相结合,以评估翻译安全性。我们的模型相对于以前的最先进技术实现了44%的BLEU改进,为实现通用翻译系统奠定了重要基础。

机器翻译/预训练模型 2022-07-06 23:52:51.379 149
多模态预训练模型来临——DeepMind最新的可以完成多种任务的单一预训练模型发布

受大规模语言建模进展的启发,我们采用了类似的方法来构建超出文本输出领域的单一通用代理。我们称之为Gato的代理作为一种多模态、多任务、多实施例的通才策略工作。具有相同权重的同一网络可以与真实的机器人手臂一起玩Atari、字幕图像、聊天、堆栈块等等,并根据其上下文决定是否输出文本、关节扭矩、按键或其他令牌。在本报告中,我们描述了模型和数据,并记录了Gato的当前能力。

多任务模型/多模态/预训练 2022-07-05 11:35:24.631 74
微软新的异构分布式推理技术,让transformers的性能提升数倍!

在过去的几年里,基于Transformers的模型取得了成功,其规模和应用场景继续快速增长。目前变压器模型的格局越来越多样化:模型大小变化很大,最大的参数为数千亿个;由于 Mixture-of-Experts引入的稀疏性,模型特征不同;目标应用场景可以是延迟关键型的,也可以是面向吞吐量的;部署硬件可以是具有不同类型内存和存储等的单GPU或多GPU系统。随着Transformers模型的多样性不断增加和快速发展,设计高性能和高效的推理系统是极其具有挑战性的。在本文中,我们提出了一个综合的Transformers模型推理系统解决方案,以解决上述挑战。DeepSpeed推理包括(1)多GPU推理解决方案,在适合聚合GPU内存时,可最大限度地减少延迟,同时最大限度地提高密集和稀疏变压器模型的吞吐量;(2)异构推理解决方案,除GPU内存和计算外,还利用CPU和NVMe内存,以实现不适合聚合GPU内存的大型模型的高推理吞吐量。对于面向延迟的场景,深度速度推理将延迟降低了最多7.3倍,对于面向吞吐量的场景,吞吐量提高了1.5倍以上。此外,它通过利用数百个GPU,在实时延迟约束下实现万亿参数规模推理,这是前所未有的推理规模。它可以推断出比仅使用GPU解决方案大25倍的型号,同时提供84 TFLOPS的高吞吐量(超过A6000峰值的50%)。

分布式训练/性能提升/推理 2022-07-04 17:00:55.437 85
模型压缩新选择——ZeroQuant提升模型压缩效率5.2倍

由于对强大的云服务器的内存/计算要求令人望而却步,如何在实践中高效地服务训练有素的自然语言模型也变得异常具有挑战性。在本工作中,我们提出了一种高效且经济实惠的训练后量化方法来压缩基于变压器的大型模型,称为零量化。ZeroQuant是一个端到端量化和推理管道,有三个主要组件:(1)一个用于权重和激活的细粒度硬件友好量化方案;(2)一个新的负担得起的逐层知识蒸馏算法(LKD),即使没有访问原始训练数据;(3)高度优化的量化系统后端支持,以消除量化/反量化开销。因此,我们能够证明:(1) ZeroQuant可以以免费的方式将BERT和GPT3风格的模型的权重和激活精度降低到INT8,精度影响最小,这导致与FP16推理相比,这些模型的加速高达5.19x/4.16x;(2)ZeroQuant加上LKD将全连接模块中的权重量化为INT4,以及注意力模块中的INT8权重和INT8激活,与FP16型号相比,内存占用减少了3倍;(3) ZeroQuant可以直接应用于两个最大的开源语言模型,包括GPT-J6B和GPT-NeoX20,我们的INT8模型实现了与FP16模型相似的精度,但效率提高了5.2倍。

分布式训练/大模型/训练优化 2022-07-04 11:27:21.197 41
Google最新超大模型Pathways:一个会讲笑话的6400亿参数的语言模型

大型语言模型已被证明在各种自然语言任务中使用几率学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对少量学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。我们使用Pathways在6144个TPU v4芯片上训练了PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。我们通过在数百个语言理解和生成基准上实现最先进的几次学习结果来证明扩展的持续好处。在其中一些任务上,PaLM 540B实现了突破性的性能,在一套多步骤推理任务上超过了经过微调的先进技术,并在最近发布的BIG-bench基准上超过了人类的平均性能。大量的BIG-bench任务显示了模型规模的不连续改进,这意味着当我们扩展到最大的模型时,性能陡然提高。PaLM在多语言任务和源代码生成方面也有很强的能力,我们在一系列的基准测试中证明了这一点。此外,我们还对偏见和毒性进行了全面的分析,并研究了与模型规模有关的训练数据记忆程度。最后,我们讨论了与大型语言模型有关的伦理考虑,并讨论了潜在的缓解策略。

大模型/语言模型/预训练模型 2022-07-01 21:57:33.172 15
新的对话式语言模型CodeGen可以将自然语言转换成可执行代码!

程序合成的目的是生成一个计算机程序作为给定问题规格的解决方案。我们提出了一种通过大型语言模型的对话式程序合成方法,该方法解决了之前的方法所面临的在巨大的程序空间和用户意图规范上进行搜索的挑战。我们的新方法将编写规范和程序的过程描述为用户和系统之间的多轮对话。它将程序合成视为一个序列预测问题,其中规范是用自然语言表达的,所需的程序是有条件采样的。我们在自然语言和编程语言数据上训练一个大型语言模型系列,称为CodeGen。随着数据中的弱监督以及数据规模和模型规模的扩大,对话能力从简单的自回归语言建模中出现。为了研究对话式程序合成的模型行为,我们开发了一个多轮编程基准(MTPB),其中解决每个问题需要通过用户和模型之间的多轮对话进行多步骤合成。我们的发现显示了对话能力的出现和所提出的对话式程序合成范式的有效性。此外,我们的模型CodeGen(在TPU-v4上训练了多达16B的参数)在HumanEval基准上超过了OpenAI的Codex。我们将包括检查点在内的训练库JaxFormer作为开放源码贡献出来:这个https URL。

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

异质表格数据是最常用的数据形式,对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上,深度神经网络已多次显示出优异的性能,因此被广泛采用。然而,它们适应表格数据的推理或数据生成任务仍然具有挑战性。为了促进该领域的进一步发展,这项工作对最先进的表格数据深度学习方法进行了概述。我们将这些方法分为三组:数据转换、专业架构和正则化模型。对于这三组中的每一组,我们的工作提供了主要方法的全面概述。此外,我们还讨论了生成表格数据的深度学习方法,并且我们还对解释表格数据上的深度模型的策略进行了概述。因此,我们的第一个贡献是解决上述领域的主要研究流和现有方法,同时强调相关的挑战和开放的研究问题。我们的第二个贡献是提供了一个传统机器学习方法与11种深度学习方法的实证比较,这些方法跨越了5个不同大小和不同学习目标的流行的真实世界表格数据集。我们将这些结果作为竞争基准公开发表,表明基于梯度增强树群的算法在监督学习任务上仍然大多优于深度学习模型,这表明针对表格数据的竞争性深度学习模型的研究进展正在停滞。据我们所知,这是对表格数据深度学习方法的第一次深入概述;因此,这项工作可以作为一个有价值的起点,指导对表格数据深度学习感兴趣的研究人员和从业人员。

XGBoost/综述 2022-07-01 21:33:37.478 16
重磅!大规模预训练模型路线图

随着深度学习的快速发展,为多个下游任务训练大模型(BMs)成为一种流行的模式。研究人员在BMs的构建和BMs在许多领域的应用方面取得了各种成果。目前,还缺乏对BMs整体进展的梳理和对后续研究的指导的研究工作。在本文中,我们不仅涉及BM技术本身,还包括BM培训和BM应用的前提条件,将BM的回顾分为四个部分。资源、模型、关键技术和应用。在这四个部分中,我们介绍了16个与BM相关的具体主题,它们是数据、知识、计算系统、并行训练系统、语言模型、视觉模型、多模式模型、理论与可解释性、常识性推理、可靠性与安全性、治理、评估、机器翻译、文本生成、对话和蛋白质研究。在每个主题中,我们都清楚地总结了当前的研究,并提出了一些未来的研究方向。在本文的最后,我们从更广阔的视角总结了BMs的进一步发展。

大模型/综述 2022-07-01 21:30:56.344 20
深度学习9个小时内教会机器人拿起和剥开香蕉

由于对象建模的困难和缺乏关于稳定和灵巧的操纵技能的知识,对可变形对象的长视距灵巧机器人操纵任务,如剥香蕉,是有问题的。本文提出了一个目标条件的双行动深度模仿学习(DIL),它可以利用人类的示范数据学习灵巧的操纵技能。以前的DIL方法映射了当前的感觉输入和反应动作,这很容易失败,因为模仿学习中由动作的反复计算引起的复合误差。所提出的方法在需要精确操纵目标物体时预测反应动作(局部动作),在不需要精确操纵时生成整个轨迹。这种双行动表述有效地防止了基于轨迹的全局行动的复合误差,同时用反应性的局部行动应对目标对象的意外变化。此外,在这种表述中,全局/局部行动都以目标状态为条件,该目标状态被定义为每个子任务的最后一步,以实现稳健的策略预测。所提出的方法在实际的双臂机器人中进行了测试,并成功地完成了剥香蕉的任务。

机器人/深度学习 2022-07-01 21:25:35.318 23
正则化和数据增强对模型的影响并不总是好的:The Effects of Regularization and Data Augmentation are Class Dependent

正则化是一种基本技术,通过限制模型的复杂性来防止过度拟合并提高泛化性能。目前的深度网络严重依赖正则化器,如数据增强(DA)或权重衰减,并采用结构风险最小化,即交叉验证,以选择最佳的正则化超参数。在这项研究中,我们证明了DA或权重衰减等技术产生了一个复杂度降低的模型,该模型在不同类别中是不公平的。从交叉验证中发现的最佳DA或权重衰减量在某些类别上会导致灾难性的模型表现,例如,在Imagenet的resnet50上,仅通过在训练期间引入随机作物DA,"谷仓蜘蛛 "的分类测试精度就从68%下降到46%。更令人惊讶的是,这种性能下降也出现在引入无信息的正则化技术,如权重衰减。这些结果表明,我们对不断提高泛化性能的追求--在所有类别和样本上的平均值--使我们的模型和正则化器在某些类别上默默地牺牲了性能。这种情况在将模型部署到下游任务时可能变得很危险,例如,在Imagenet预训练阶段引入随机作物DA时,部署在INaturalist上的Imagenet预训练resnet50在类#8889上的表现从70%下降到30%。这些结果表明,设计没有类别依赖性偏差的新型正则器仍然是一个开放的研究问题。 通过www.DeepL.com/Translator(免费版)翻译

正则化/过拟合 2022-07-01 21:22:49.489 17
Unifying Language Learning Paradigms——谷歌的一个模型打天下

现有的预训练模型一般都是针对某一类问题的。到目前为止,对于什么是正确的架构和预训练设置,似乎还没有达成共识。本文提出了一个统一的预训练模型框架,该框架在不同的数据集和设置中都是有效的。我们首先将架构原型与预训练目标分开,这两个概念通常被混为一谈。接下来,我们为NLP中的自我监督提出了一个普遍而统一的观点,并展示了不同的预训练目标是如何相互投射的,以及不同目标之间的插值是如何有效的。然后,我们提出了Mixture-of-Denoisers(MoD),一个将不同的预训练范式结合起来的预训练目标。我们进一步介绍了模式切换的概念,其中下游的微调与特定的预训练方案相关。我们进行了广泛的消融实验来比较多种预训练目标,并发现我们的方法在多种不同的设置中超越了T5和/或GPT-like模型,从而推动了Pareto-frontier的发展。最后,通过将我们的模型扩展到20B的参数,我们在50个公认的有监督的NLP任务上取得了SOTA的表现,这些任务包括语言生成(有自动和人工评估)、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在语境学习方面也取得了很好的效果,在零次的SuperGLUE上超过了175B GPT-3,在一次的总结上是T5-XXL性能的三倍。他们发布了开源了20B模型。

语言模型/预训练模型 2022-07-01 21:20:32.027 11
大型语言模型的能力更进一步——谷歌发布可以做定量推理的语言模型!

语言模型在需要自然语言理解的广泛任务上取得了显著的表现。然而,最先进的模型通常都在与需要量化推理的任务作斗争,比如在大学层面解决数学、科学和工程问题。为了帮助缩小这一差距,我们引入了Minerva,这是一个在一般自然语言数据上预先训练并在技术内容上进一步训练的大型语言模型。该模型在不使用外部工具的情况下,在技术基准上实现了最先进的性能。我们还对物理、生物学、化学、经济学和其他需要量化推理的200多个本科问题进行了评估,发现该模型可以正确回答其中近三分之一的问题。

大模型/定量推理/数学 2022-07-01 15:04:48.504 32
时序预测工具Prophet继任者PROFHIT来了

概率分层时间序列预测是时间序列预测的一个重要变体,其目标是对具有潜在分层关系的多变量时间序列进行建模和预测。大多数方法集中在点预测上,没有提供良好的校准概率预测分布。最近先进的概率预测方法也将层次关系强加于点预测和分布样本上,这并没有考虑到预测分布的一致性。以前的工作也默默地假设数据集总是与给定的层次关系一致,并且不适应现实世界的数据集,这些数据集显示出与这个假设的偏差。我们弥补了这两方面的不足,并提出了PROPHIT,这是一个完全概率化的层次预测模型,对整个层次的预测分布进行联合建模。PROFHIT使用灵活的概率贝叶斯方法,并引入了一种新的分布一致性正则化,从整个预测分布的层次关系中学习,从而实现稳健和校准的预测,并适应不同层次一致性的数据集。在对广泛的数据集进行评估时,我们观察到PROFHIT在准确性和校准方面的性能提高了41-88%。由于对整个分布的一致性进行建模,我们观察到,即使有高达10%的输入时间序列数据丢失,PROFHIT也能稳健地提供可靠的预测,而其他方法的性能严重下降了70%以上。

时序预测/概率图模型 2022-06-21 22:31:21.402 22
最新的Reducible Holdout Loss Selection可以让你的模型训练步骤减少18倍!

对网络规模的数据进行训练可能需要几个月。但是大部分的计算和时间都浪费在了已经学习过或无法学习的冗余和噪音点上。为了加速训练,我们引入了Reducible Holdout Loss Selection (RHO-LOSS),这是一种简单但有原则的技术,它可以选择那些最能减少模型泛化损失的点进行训练。因此,RHO-LOSS减轻了现有数据选择方法的弱点:来自优化文献的技术通常选择 "硬"(如高损失)的点,但这些点往往是嘈杂的(不可学习)或与任务不太相关。相反,课程学习优先考虑 "容易 "的点,但这些点一旦学会就不需要训练。相反,RHO-LOSS选择的是可学习的、值得学习的和尚未学习的点。RHO-LOSS的训练步骤比现有技术少得多,提高了准确性,并在广泛的数据集、超参数和架构(MLPs、CNNs和BERT)上加快了训练速度。在大型网络刮削图像数据集Clothing-1M上,RHO-LOSS的训练步骤减少了18倍,最终准确率比统一数据洗牌高2%。 通过www.DeepL.com/Translator(免费版)翻译

加速库/模型训练 2022-06-17 21:53:45.841 32
大型语言模型(LLM)的独特能力探索——谷歌最新论文

扩大语言模型的规模已被证明可以预测地提高广泛的下游任务的性能和采样效率。本文反而讨论了一种不可预测的现象,我们将其称为大型语言模型的突发能力。如果一种能力在较小的模型中不存在,但在较大的模型中存在,我们认为这种能力是突现的。因此,出现的能力不能简单地通过推断较小模型的性能来预测。这种涌现的存在意味着额外的缩放可以进一步扩大语言模型的能力范围

LLM/大型语言模型/语言模型 2022-06-16 23:07:19.435 24
DALL·E2的对手来了,谷歌Text-to-Image模型(Imagen)来临!

我们提出了Imagen,一个文本到图像的扩散模型,具有空前的逼真度和深层次的语言理解。Imagen建立在大型转化器语言模型在理解文本方面的力量之上,并依赖于扩散模型在高保真图像生成方面的力量。我们的关键发现是,通用的大型语言模型(如T5),在纯文本语料库上进行了预训练,在为图像合成编码文本方面有惊人的效果:在Imagen中增加语言模型的大小,比增加图像扩散模型的大小更能提高样本的保真度和图像-文本的一致性。Imagen在COCO数据集上实现了新的最先进的FID得分,即7.27分,而不需要在COCO上进行训练,人类评分者发现Imagen样本在图像-文本对齐方面与COCO数据本身相当。为了更深入地评估文本-图像模型,我们介绍了DrawBench,一个全面的、具有挑战性的文本-图像模型的基准。通过DrawBench,我们将Imagen与最近的方法,包括VQ-GAN+CLIP,Latent Diffusion Models和DALL-E 2进行了比较,发现人类评分员在侧面比较中更喜欢Imagen而不是其他模型,无论是在样本质量和图像-文本对齐方面。有关结果的概述,请参见https://imagen.research.google/。

Text-to-Image/图像生成 2022-05-28 20:40:38.397 21
全世界第一个基于text的超参数optimizer诞生!

从先前的实验中元学习超参数优化(HPO)算法是一种很有前途的方法,可以提高对来自类似分布的目标函数的优化效率。然而,现有的方法仅限于从共享同一组超参数的实验中学习。在本文中,我们介绍了OptFormer,这是第一个基于文本的Transformer HPO框架,它提供了一个通用的端到端接口,用于在来自野外的大量调谐数据上训练时联合学习策略和函数预测。我们广泛的实验证明,OptFormer可以模仿至少7种不同的HPO算法,通过其函数的不确定性估计可以进一步提高。与高斯过程相比,OptFormer还为超参数响应函数学习了一个稳健的先验分布,因此可以提供更准确和更好的校准预测。这项工作为未来扩展训练基于Transformer的模型作为一般HPO优化器铺平了道路。

Transformers/超参数优化 2022-05-28 20:18:56.239 31
基于深度学习的非参数聚类方法——DeepDPM

在这项工作中,我们通过引入一种有效的深度聚类方法来弥补这一差距,该方法不需要知道K的值,因为它在学习过程中会推断出K的值。通过使用分裂/合并框架、适应变化的K的动态结构和新的损失,我们提出的方法优于现有的非参数方法(包括经典的和深度的)

深度学习/聚类/非参数聚类 2022-05-15 22:42:14.807 28