这篇笔记介绍了 Fokker-Planck
方程的推导,以及任意初始条件趋于稳态解的条件和证明。并解释了 Langevin
dynamics 采样的原理。
Kramer-Moyal 展开到
Fokker-Planck 方程
连续时间序列的 Markov
随机过程(即从当前状态到下一个状态的转移概率和过去所处的状态无关)可以用关于随机变量
的随机微分方程来描述,也可以用概率分布 的微分方程 (即 Fokker-Planck
方程)描述,这两者是等价的。借助 Kramer-Moyal
展开方法,可以从随机微分方程导出概率分布满足的微分方程。
先考虑一维随机变量 ,高维情形的处理方式是类似的。初始时 , , 根据 Markov 过程的定义 ,有
记号
表示x条件下y的概率密度, 是
的概率密度。为了书写简洁,之后在概率密度中省去初始条件 。定义状态转移概率 ,那么 式可改写为
式中做了积分变量的换元。接下来对等号右边的 做 Taylor 展开
这里我们交换了积分与求和、求导的次序(我身为一个物理专业的毕业生,在计算中随意交换运算次序也很合理吧@_@!)。
可以看到
式最后等号右侧的积分是转移概率 的
-阶矩,记作 ,也就得到了 Kramer-Moyal
展开:
因为状态转移概率是归一的,,代入 式并取极限 可以得到
Fokker-Planck 方程:
Langevin 过程
在这一节中,我们将使用 Kramer-Moyal 展开技术,从 Langevin
随机微分方程导出其概率分布满足的方程,并由此说明 Lagevin Dynamics
采样方法的正确性。
Langevin 方程是描述粒子扩散的随机微分方程
方程中 是一个 -维向量,表示粒子在空间中的位置; 是一个关于 的向量值函数;
是噪声项,每个分量
都是服从标准高斯分布的随机变量,各分量之间相互独立; 是与 无关的常量。
对方程 做时间离散化:
可以计算状态转移概率 (使用技巧: 如果随机变量 ,那么 。)
由此可以计算出各阶矩
根据 Fokker-Planck 方程 ,
二阶及以上的项在取极限时都会消失,所以只需要考虑 一阶项。为了使 发挥作用, 式中的 需要是一阶项,可以令 ,得到关于概率分布的微分方程
当 是梯度场 时, 方程 存在稳态解
是归一化系数。可以证明 (见附录:证明),任意满足方程
的解在时间足够长时都会无限接近于稳定解
对应的离散时间步 Langevin 过程是
Langevin Dynamics 采样
Langevin Dynamics 采样是一种利用扩散过程随机采样的方法。
对任一 ,按如下步骤迭代
这一采样过程就是方程 。按照上一节中的结论,当
时, 会近似服从概率分布 。
与梯度下降方法的关系
梯度下降是寻找目标函数
最小值的方法,采用迭代方式,每步迭代按照目标函数的负梯度方向更新
若在每步更新引入噪声 ,就变成了 Langevin Dyanmics 采样
多次迭代后,会服从分布 。取 噪声极限 ,分布 会集中到 最小的区域。
附录
证明方程
的任意解在时间足够长时趋向于稳态解
我们将跟随Risken证明对于方程
如果 是正定,且
没有奇点,那么对于任意两个不同的解 和 ,他们的 KL 散度 随时间递减
。我们知道 KL 散度是非负数的,所以最终 会趋于 。我们即将证明 当且仅当
。
也就是说任意两个不同的解在时间足够长后都会趋于相等 。而稳态解是不随时间变化的解,那么可以得出结论:所有的解在时间足够长后都趋于稳态解。
命题: 方程 ,当 正定且 无奇点时, 是方程的解,有 。 当且仅当 。
证明:记算符 。那么方程
变为 。令 是两个解的比值。可以计算 的导数是
而 ,有
代入 式,
因为 正定,所以 。
取等号的充要条件是 ,即 不随 变化, 。又由于概率是归一化的,所以当 时,。