OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)
尽管像GPT-4这样的语言模型已经展示了强大的能力,但是,基于transformer这种深度学习架构的语言模型依然缺乏足够的可解释性。例如,从输出的结果来看,我们依然很难检测模型中是否使用了biased heuristics或者engage in deception。
今天,OpenAI官方宣布了一个非常有意思的论文,他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义,试图让语言模型来对语言模型本身的原理进行解释。






