重磅数据集分享:大规模多模态语料库之悟道数据集(WuDaoCorpora 2.0)

标签:#数据集# 时间:2022/03/24 09:17:39 作者:小木

与特定领域的模型相比,视觉语言预训练模型(VLPMs)在下游任务上表现出了快速微调过程的优越性。例如,ERNIE-ViL、Oscar和UNIMO用统一的变换器堆栈结构和大量的图像-文本配对数据来训练VLPMs,在图像-文本参考(IR和TR)、视觉问题回答(VQA)和图像字幕(IC)等下游任务上取得了显著的效果。在训练阶段,VLPMs总是被输入多个公共数据集的组合,以满足大范围训练数据的需求。然而,由于数据分布的不均匀性,包括规模、任务类型和质量,使用多个数据集的混合物进行模型训练会有问题。

前几天,北京智源人工智能研究院引入了一个名为WuDaoMM的大规模多模态语料库,总共包含超过6.5亿对图像-文本。具体来说,约有6亿对数据是从图像和标题呈现弱相关的多个网页中收集的,另外5000万对强相关的图像-文本是从一些高质量的图片网站中收集的。我们还发布了WuDaoMM的基础版本,其中有500万个强相关的图像-文本对,这足以支持常见的跨模式模型预训练。此外,我们同时训练了一个理解模型和一个生成视觉语言(VL)模型,以测试数据集的有效性。结果表明,WuDaoMM可以作为VLPMs的一个有效的数据集,特别是对于文本到图像生成任务的模型。

数据集地址:https://data.wudaoai.cn/home

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送