OpenAI秘密武器Q*到底是什么?一个神秘帖子的解密:Q*是一个不同于当前大模型推理方式的新对话生成系统

标签:#OpenAI##Q*##Q-Star# 时间:2024/03/20 17:17:42 作者:小木

在去年末的OpenAI宫斗风波中,伴随着Sam下台和重新掌权过程中有一个非常重要但不被大家了解的算法Q*。国外的路透社曾经提到OpenAI内部一个称为Q*(Q Star)项目取得了非常重大的突破,使得部分人认为AGI很接近,进而引发了一系列事件。但是,Q*到底是什么?是否存在一直被很多人猜测。而最近,一个神秘的帖子继续爆料了Q*的信息。


关于此前的Q*的爆料参考:导致Sam离职风波背后的OpenAI最近的技术突破——Q*项目信息汇总

[TOC]

本次爆料的Q*信息来源

首先说明一下,本次的爆料来源于一个匿名用户在Pastebin上分享的纯文本。Pastebin是一个在线服务,允许用户上传并分享文本片段。这个服务自2002年起运营,以其简单易用而受到开发者、写作者和技术人员的广泛欢迎。

用户可以在没有注册的情况下上传文本,本次的Q*内容来自一个未登录用户的文本,里面介绍了Q*的概念以及它和当前的ChatGPT背后的模型GPT-4系列的差异。由于没有任何佐证信息,无法判断真伪,但内容写的很有参考,所以DataLearnerAI给大家共享一下。大家自行思考判断。

Q*总结:一个成功模拟人类思考的对话系统

我们首先总结一下爆料的关于Q*的总结。根据爆料,Q*是OpenAI设计的一个对话系统,与当前的大语言模型机制有本质的差异

当前的大语言模型是按照顺序预测下一个token来生成答案,通过有监督微调和对齐训练让模型更适合用于对话场景。不同于当前主流的自回归token预测方法,Q*旨在模拟人类在复杂问题解决(如下棋)时的内在审思过程,通过更深入地分析潜在的回答选择,从而作出更好的决策,而非快速生成回复。大约的过程是Q*会先将用户的输入映射到一个抽象空间中,在其中做表征优化,一旦找到最优抽象表征,Q*会使用自回归解码器将其转换为自然语言回复。

可以看到,这个过程的核心在于多了一个抽象空间的表征优化。类似于人类的思考过程,即当人类回答一个问题的时候,首先大脑会有多个答案,你会从其中挑选一个最优的答案回复。但是,这里提到的最优不是指下一个token最优,而是什么样的整体的答案是最优的,然后根据最优的答案组织语言回复!这就是爆料中关于Q*的核心内容。

下面我们给出完整原文的翻译结果。

OpenAI的Q*简介(原文翻译)

Q*是OpenAI设计的一种对话系统,它通过采用基于能量的模型(Energy-Based Model, EBM)来提升传统对话生成的方式。它不同于目前流行的基于逐个预测Token的方法,Q*试图通过一种内部审议的方式来模拟人在面临复杂问题时的思考过程,比如下棋时对每一步可能走法深思熟虑后做出的决策,通常比匆忙、未经充分考虑的决策要好。这种模式更多地侧重于推断潜在变量——这些变量类似于我们在概率模型和图形模型中看到的那些概念,这种方式从根本上改变了对话系统的工作原理。(DataLearnerAI注,这里如果大家对LDA比较熟悉或者概率图模型比较熟悉就能很容易理解隐变量的含义了,可以类比于向量大模型中的嵌入向量,只是向量大模型的向量是表征文本,而这里的向量或者隐变量表示的是答案)

基于能量的模型(EBM)在对话生成中的应用

Q*的核心是一个基于能量的模型(EBM),它通过评估答案与给定提示的匹配度来工作,匹配度通过一个标量(即“能量”值)来表示。较低的“能量”值意味着高度兼容(即更好的答案),而较高的值则表明匹配度低(即较差的答案)。这种机制使得Q*能够全面评估每一个可能的回答,而不仅仅是按顺序预测下一个Token,从而深入理解一个答案与提问的相关性和适当性

在抽象的思维空间中进行创新优化

Q* 的创新核心在于其独特的优化过程。与传统优化文本字符串的方法不同,Q* 在一个称为抽象表示空间的更高维度进行。在这个空间里,思想和概念被转化为一种特殊的形式,便于通过计算方法寻找到能量最小化的解,就像是在崎岖的地形中找到一条最省力的路径。这一过程采用了梯度下降法——一种通过迭代改进来寻找函数最小值的策略,目的是不断优化这些抽象的表示,直至找到与给定提示最为匹配、能量消耗最低的那个。

将抽象思维转化为文字回复

当我们找到了一个能最大程度降低EBM输出能量的抽象表示后,Q* 会用一个自回归解码器来将这种非文字的、抽象的思维转换成流畅的文本回应。这一步骤有效地连接了对话系统在非语言认知层面和满足人类交流需求的语言输出之间的鸿沟。

系统的训练过程

Q* 的EBM通过分析提示与回应的配对进行训练,调整内部参数以确保匹配的配对具有最低的能量消耗,而不匹配的则显示出较高的能量水平。这种训练方法既包括对比学习——通过这种方式,系统学会了如何区分匹配与不匹配的情况——也包括非对比学习,后者通过正则化技巧来管理在所有可能回答的范围内,低能量回应的分布,以优化整个系统的响应效果。

对话系统的新发展

Q*采用EBM(能量基模型)来生成对话,这一做法标志着与传统语言模型截然不同的新方向。Q*通过在一个抽象的表示空间中进行优化,并采用基于梯度的推断方法,开创了一种更加高效、合理且潜力巨大的对话回复生成方式。这种系统不仅能够提升文本生成的品质,还为AI在进行类似人类的推理和对话交流方面的未来进步指明了方向。

技术背后的思考

Q*的成功依赖于它的EBM复杂度、它所面临的优化策略,以及抽象表示的准确度。这个模型能够模拟出深层次的推理过程,这种过程和人类深思熟虑的方式十分相似,为对话系统树立了新的标杆。同时,训练Q*的方式也面临着挑战和机遇,需要在生成准确回复的特定性需求和保持对多样输入的能量级不崩溃之间找到平衡点,这为AI研究开辟了新的领域。

关于Q*爆料的思考

这篇没有任何来源的爆料虽然无法判断真伪,但是其中的描述值得大家思考。几乎所有人都认为当前主流大语言模型的原理都有内在的缺陷,也可能不是真正的人工智能实现路径,但是也没有人给出如何解决,以及未来的方向是什么。而这则关于Q*的爆料所提到的将输入映射到一个空间中进行“思考”,再将“思考”的结果decode成输出的语言似乎是有道理的。

至于是不是真的,或者这条路径是不是对的,就期待后续的AI的发展了~

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客