通用人工智能(AGI)再往前一步:MetaAI发布新的能听会说的多模态AI大模型ImageBind
当前,大语言模型主要是基于生成式自然语言处理模型为主。少部分多模态模型可以处理文本、图片和视频信息。但是,AI模型目前还无法像人类一样接受周围的多模态信息进行处理,如图像、文本、声音等。但是,昨天MetaAI发布了一个可以听说读写的AI大模型ImageBind,它可以同时处理6种数据,并输出。本文将简单介绍一下这个模型。
ImageBind简介
AI模型在学习时,往往只能接受单一形式的信息,只不过如今这一情况正在改变。来自MetaAI团队的最新进展是,他们开发了一种名为ImageBind的AI模型,该模型可以同时将来自六个形态的信息进行绑定,从而使得机器在多种形式的数据中同时地、完整地、直接地进行学习,而不需要进行显式的监督。
ImageBind不仅可以处理文本、图片/视频和音频,还可以处理记录深度(3D)、热力学(红外线辐射)以及惯性测量单元(IMU,即能够计算物体的运动和位置)的传感器,从而从多重角度为机器提供全面的理解。

该技术比先前的专业模型有更好的表现,同时也能帮助AI技术更好地分析多种不同形式的信息。
ImageBind还为更准确地识别、连接和管控内容、更为扩展的多模态搜索功能等提供了可能性,以及在生成更丰富的媒体时又能更为自然地进行操作等方面,ImageBind都会有所作为。
ImageBind是Meta发展多模态AI系统的一部分。随着模态数量的增加,ImageBind也为研究人员提供了更多开发全面系统的机会。ImageBind的多模态能力可以使研究人员将其他形式的数据作为输入查询,并以其他格式检索输出,从而打通不同形式间的隔阂,进一步构建出类人智能的机器。
ImageBind模型技术解析
ImageBind作为MetaAI新发布的多模态模型,专注于多模态表示学习。从模型设计来说,ImageBind的目标是利用图像绑定(Image Bind)学习一个embedding空间,里面包含了所有模态的信息。




