OpenAI官方最新研究成果:如何用GPT-4这样的语言模型来解释语言模型中的神经元(neurons)
尽管像GPT-4这样的语言模型已经展示了强大的能力,但是,基于transformer这种深度学习架构的语言模型依然缺乏足够的可解释性。例如,从输出的结果来看,我们依然很难检测模型中是否使用了biased heuristics或者engage in deception。
今天,OpenAI官方宣布了一个非常有意思的论文,他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义,试图让语言模型来对语言模型本身的原理进行解释。

本文将简单介绍一下OpenAI这个研究思路。
如何对深度学习网络中的神经元进行解释?
对于基于深度学习的语言模型做可解释性研究的一种简单的方法是了解深度学习网络架构中单个组件正在执行的任务。传统上,这需要人类手动检查神经元以确定它们表示的数据特征。
要手工查看深度学习中的神经元并对其解释,需要进行以下步骤:
- 选择一个特定的神经元,可以通过其在神经网络中的位置或ID进行标识。
- 收集与该神经元相关的数据,例如输入数据和网络的其他输出。
- 分析该神经元在输入数据上的响应,例如它是否更喜欢特定的模式或特征。





