这篇笔记介绍了 Fokker-Planck 方程的推导,以及任意初始条件趋于稳态解的条件和证明。并解释了 Langevin dynamics 采样的原理。

Kramer-Moyal 展开到 Fokker-Planck 方程

连续时间序列的 Markov 随机过程(即从当前状态到下一个状态的转移概率和过去所处的状态无关)可以用关于随机变量 的随机微分方程来描述,也可以用概率分布 的微分方程 (即 Fokker-Planck 方程)描述,这两者是等价的。借助 Kramer-Moyal 展开方法,可以从随机微分方程导出概率分布满足的微分方程。

先考虑一维随机变量 ,高维情形的处理方式是类似的。初始时 , , 根据 Markov 过程的定义 ,有

记号 表示x条件下y的概率密度, 的概率密度。为了书写简洁,之后在概率密度中省去初始条件 。定义状态转移概率 ,那么 式可改写为

式中做了积分变量的换元。接下来对等号右边的 做 Taylor 展开

这里我们交换了积分与求和、求导的次序(我身为一个物理专业的毕业生,在计算中随意交换运算次序也很合理吧@_@!)。

可以看到 式最后等号右侧的积分是转移概率 -阶矩,记作 ,也就得到了 Kramer-Moyal 展开:

因为状态转移概率是归一的,,代入 式并取极限 可以得到 Fokker-Planck 方程:

Langevin 过程

在这一节中,我们将使用 Kramer-Moyal 展开技术,从 Langevin 随机微分方程导出其概率分布满足的方程,并由此说明 Lagevin Dynamics 采样方法的正确性。

Langevin 方程是描述粒子扩散的随机微分方程

方程中 是一个 -维向量,表示粒子在空间中的位置; 是一个关于 的向量值函数; 是噪声项,每个分量 都是服从标准高斯分布的随机变量,各分量之间相互独立; 是与 无关的常量。

对方程 做时间离散化:

可以计算状态转移概率 (使用技巧: 如果随机变量 ,那么 。)

由此可以计算出各阶矩

根据 Fokker-Planck 方程 二阶及以上的项在取极限时都会消失,所以只需要考虑 一阶项。为了使 发挥作用, 式中的 需要是一阶项,可以令 ,得到关于概率分布的微分方程

是梯度场 时, 方程 存在稳态解

是归一化系数。可以证明 (见附录:证明),任意满足方程 的解在时间足够长时都会无限接近于稳定解

对应的离散时间步 Langevin 过程是

Langevin Dynamics 采样

Langevin Dynamics 采样是一种利用扩散过程随机采样的方法。

对任一 ,按如下步骤迭代

这一采样过程就是方程 。按照上一节中的结论,当 时, 会近似服从概率分布

与梯度下降方法的关系

梯度下降是寻找目标函数 最小值的方法,采用迭代方式,每步迭代按照目标函数的负梯度方向更新

若在每步更新引入噪声 ,就变成了 Langevin Dyanmics 采样

多次迭代后,会服从分布 。取 噪声极限 ,分布 会集中到 最小的区域。

附录

证明方程 的任意解在时间足够长时趋向于稳态解

我们将跟随Risken1证明对于方程

如果 是正定,且 没有奇点,那么对于任意两个不同的解 ,他们的 KL 散度 随时间递减 。我们知道 KL 散度是非负数的,所以最终 会趋于 。我们即将证明 当且仅当 。 也就是说任意两个不同的解在时间足够长后都会趋于相等 。而稳态解是不随时间变化的解,那么可以得出结论:所有的解在时间足够长后都趋于稳态解。

命题: 方程 ,当 正定且 无奇点时, 是方程的解,有 当且仅当

证明:记算符 。那么方程 变为 。令 是两个解的比值。可以计算 的导数是

,有

代入 式,

因为 正定,所以

取等号的充要条件是 ,即 不随 变化, 。又由于概率是归一化的,所以当 时,


  1. Hannes Risken: The Fokker-Planck Equation, Methods of Solution and Applications (6.1).↩︎