这篇笔记介绍了 Fokker-Planck 方程的推导，以及任意初始条件趋于稳态解的条件和证明。并解释了 Langevin dynamics 采样的原理。

Kramer-Moyal 展开到 Fokker-Planck 方程

连续时间序列的 Markov 随机过程（即从当前状态到下一个状态的转移概率和过去所处的状态无关）可以用关于随机变量的随机微分方程来描述，也可以用概率分布的微分方程 (即 Fokker-Planck 方程)描述，这两者是等价的。借助 Kramer-Moyal 展开方法，可以从随机微分方程导出概率分布满足的微分方程。

先考虑一维随机变量，高维情形的处理方式是类似的。初始时 , , 根据 Markov 过程的定义，有

记号表示x条件下y的概率密度，是的概率密度。为了书写简洁，之后在概率密度中省去初始条件。定义状态转移概率，那么式可改写为

式中做了积分变量的换元。接下来对等号右边的做 Taylor 展开

这里我们交换了积分与求和、求导的次序（我身为一个物理专业的毕业生，在计算中随意交换运算次序也很合理吧@_@!）。

可以看到式最后等号右侧的积分是转移概率的 -阶矩，记作，也就得到了 Kramer-Moyal 展开:

因为状态转移概率是归一的，，代入式并取极限可以得到 Fokker-Planck 方程:

Langevin 过程

在这一节中，我们将使用 Kramer-Moyal 展开技术，从 Langevin 随机微分方程导出其概率分布满足的方程，并由此说明 Lagevin Dynamics 采样方法的正确性。

Langevin 方程是描述粒子扩散的随机微分方程

方程中是一个 -维向量，表示粒子在空间中的位置；是一个关于的向量值函数；是噪声项，每个分量都是服从标准高斯分布的随机变量，各分量之间相互独立；是与无关的常量。

对方程做时间离散化:

可以计算状态转移概率 (使用技巧: 如果随机变量，那么。)

由此可以计算出各阶矩

根据 Fokker-Planck 方程，二阶及以上的项在取极限时都会消失，所以只需要考虑一阶项。为了使发挥作用，式中的需要是一阶项，可以令，得到关于概率分布的微分方程

当是梯度场时, 方程存在稳态解

是归一化系数。可以证明 (见附录：证明)，任意满足方程的解在时间足够长时都会无限接近于稳定解

对应的离散时间步 Langevin 过程是

Langevin Dynamics 采样

Langevin Dynamics 采样是一种利用扩散过程随机采样的方法。

对任一，按如下步骤迭代

这一采样过程就是方程。按照上一节中的结论，当时，会近似服从概率分布。

与梯度下降方法的关系

梯度下降是寻找目标函数最小值的方法，采用迭代方式，每步迭代按照目标函数的负梯度方向更新

若在每步更新引入噪声，就变成了 Langevin Dyanmics 采样

多次迭代后，会服从分布。取噪声极限，分布会集中到最小的区域。

附录

证明方程的任意解在时间足够长时趋向于稳态解

我们将跟随Risken¹证明对于方程

如果是正定，且没有奇点，那么对于任意两个不同的解和，他们的 KL 散度随时间递减。我们知道 KL 散度是非负数的，所以最终会趋于。我们即将证明当且仅当。也就是说任意两个不同的解在时间足够长后都会趋于相等。而稳态解是不随时间变化的解，那么可以得出结论：所有的解在时间足够长后都趋于稳态解。

命题： 方程，当正定且无奇点时，是方程的解，有。当且仅当。

证明：记算符。那么方程变为。令是两个解的比值。可以计算的导数是

而，有

代入式，

因为正定，所以。

取等号的充要条件是，即不随变化, 。又由于概率是归一化的，所以当时，。

Hannes Risken: The Fokker-Planck Equation, Methods of Solution and Applications (6.1).↩︎