强化学习的数学基础之马尔可夫链(Markov Chain)
马尔可夫链(Markov Chain)是由马尔可夫性质推导出来的一种重要的概率模型。马尔科夫链是一种离散时间的随机过程,作为现实世界的统计模型,有很多应用。在热力学、统计力学、排队理论、金融领域等都有重要的应用价值。
作为一种离散时间的随机过程,与其对应的模型是马尔可夫过程(Markov Process),这是一种连续时间随机过程的模型。本节将主要介绍马尔科夫链。
一、随机过程的简单理解
随机过程研究的是在时间维度上的事件发生的规律,也就是说这里有两个东西存在,一个是时间,一个是事件。换句话说,我们希望研究每一个时间点上某个事件发生的规律,同时还研究在某一个时间点发生某个事件后,下一个时间点可能会发生什么。显然,时间这个东西可以有两种描述方式,一种是连续时间,一种是离散时间。连续时间是指将时间当作可以无限分割的连续变量研究,而离散时间则将时间当作分离的时间点研究。因此,对于随机过程来说,也分成连续时间随机过程与离散时间的随机过程。而马尔科夫链就是一种离散时间的随机过程。
二、马尔科夫链的数学形式(Markov Chain)
前面说了,马尔科夫链是由马尔可夫性质推导出来的一种概率模型。因此,马尔可夫链最基本的假设就是不管当前的状态是怎么来的,它下一个状态都将只取决于当前的状态是什么,在此之前发生了什么都不会影响到下一个状态。而状态之间的变化概率,也就是说当前状态发生之后,下一个状态会是什么这个问题,马尔科夫链使用的是状态转移概率矩阵来描述。

