关于GPT-4的多模态版本最新消息:可能的代号是Gobi,也许会比Google下一代LLM的Gemini更早发布

标签:#Gemini##GPT-4-Vision##多模态# 时间:2023/09/20 11:23:28 作者:小木

The Information最新消息透露OpenAI正在抓紧准备GPT-4多模态版本的发布,可能称为GPT4-Vision。


主要信息如下:

OpenAI据报道正在加速推出一个名为GPT-Vision的高级多模态LLM,代号为Gobi。(消息来源:https://www.theinformation.com/articles/openai-hustles-to-beat-google-to-launch-multimodal-llm

  • GPT-Vision目前受到安全审查的限制,但“OpenAI的工程师似乎快要满足法律上的担忧。”
  • OpenAI希望通过赶在谷歌的Gemini之前推出先进的多模态LLM来领先于谷歌。因为Gemini可能是今年冬天结束之前发布,所以估计很快多模态的GPT-Vision也会发布。

Google的Gemini是之前透露的今年可能在10月到11月发布的Google下一代多模态大模型,主要信息包括:

  • Google Gemini将是多模态的。Pichai表示,Gemini将结合DeepMind的AlphaGo系统的优势,该系统以掌握复杂的围棋游戏而闻名,并具备广泛的语言建模能力。他表示,Gemini从头开始设计为多模态,可以整合文本、图像和其他数据类型,从而可能实现更自然的对话能力。Pichai还暗示了未来可能的功能,如记忆和规划,这可以支持需要推理的任务。

  • Gemini可以使用工具和API。Google首席科学家Jeffrey Dean在夏季更新他的职业简介时表示,Gemini是他共同领导的“下一代多模态模型”之一。他表示,Gemini将利用Google的新AI基础设施Pathways,以支持对多样化数据集的扩展训练。这暗示了Gemini可能成为迄今为止最大的语言模型,很可能超过GPT-3的规模,拥有超过1750亿个参数。

  • Gemini将提供不同尺寸和功能。DeepMind的首席执行官Demis Hassabis提供了额外的细节。他在六月份告诉Wired杂志,从AlphaGo中获得的技术,如强化学习和树搜索,可能赋予Gemini新的能力,如推理和问题解决。Hassabis表示,Gemini是一系列模型,将提供不同尺寸和功能的版本。他还提到,Gemini可能会利用记忆、对Google搜索等来源进行事实核查,以及改进的强化学习以提高准确性并减少危险的幻觉内容。

  • 早期的Gemini结果令人鼓舞。在九月份的一次Time杂志采访中,Hassabis重申Gemini的目标是结合规模和创新。他表示,将规划和记忆整合进Gemini目前还处于早期的探索阶段。Hassabis还表示,Gemini可能会使用检索方法来输出整个信息块,而不是逐词生成,以提高事实的一致性。他透露,Gemini建立在DeepMind的多模态工作基础上,如图像字幕系统Flamingo。总的来说,Hassabis表示,Gemini正在展现出“非常有前景的早期结果”。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送