Q Learning算法详解
Q Learning是一种无模型(model-free reinforcement learning)强化学习,也是强化学习中十分重要的一种基础模型。谷歌旗下的DeepMind基于Q Learning提出的Deep Q Network是将强化学习与深度学习融合的经典模型,也将强化学习往前推动了一大步。因此,对于学习现代的强化学习模型来说,Q Learning是必须理解的一个基础模型。本文将详细解释这个模型。
一、Q Learning的由来
Q Learning是由Chris Watkins在1989年提出的一种强化学习模型。发表在其博士学位论文《Learning from delayed rewards》中(老哥也是很直接,在博士论文开头就说了,这个论文完全是他自己一个人的工作,没有和任何其他人进行合作)。当时,人工智能的研究还是十分关注模仿行为决策的。在行为建模中,使用动态规划求解动物最优行为策略是一种通用的方法。在他的博士学位论文中,他系统分析了这些求解方法。在当时,动物的行为选择的标准建模就是马尔科夫决策过程,而基于动态规划的方法求解马尔可夫过程也是当时固有的方法。
但是,Watkins认为动物行动的时候并不会去计算这些。因此,除了动态规划外,Chris Watkins选择了一种增量蒙特卡洛(an incremental Monte-Carlo method)方法来学习这种最优行为决策。它的优点是不需要对周围的环境进行建模,也不需要记忆很久之前的状态与行为。他在论文中证明了这种方法的有效性。这个方法就是Q Learning。Watkins说这个算法本身是由第一性原理(The first principle,马斯克说的估计和这个是一个东西)的论点发展起来的,而不是为了解释特定的实验结果。
在1992年,Chris Watkins和Peter Dayan在期刊《Machine Learning》(参见:)发表了一篇新的论文《Q Learning》,证明了这个方法的收敛。也就是说,只要我们在所有的状态和action-value中重复学习,就最后一定能学习到最优的action-value。下面我们就来看看这个方法到底是什么样的。
