跳转到主要内容
Chinese, Simplified

category

欢迎回到我的AI博客!在上一篇文章中,我简要介绍了强化学习。今天,我将通过介绍马尔可夫过程来帮助您继续您的旅程,在探讨强化学习中使用的马尔可夫决策过程(MDP)之前,我们需要了解马尔可夫过程。

到最后,您将掌握以下基本知识:

  • 马尔可夫性质和马尔可夫链是什么;
  • 马尔可夫性质是如何工作的;
  • 马尔可夫链如何将马尔可夫属性付诸实践。


介绍马尔可夫过程


为了开始我们的讨论,让我们先列出一些关键术语及其在维基百科中的定义。然后我们再深入一点。

马尔可夫性质:在概率论和统计学中,马尔可夫性质是指随机或随机确定过程的无记忆性质。

马尔可夫链:马尔可夫链是一种随机模型,描述了一系列可能的事件,其中每个事件的概率仅取决于前一个事件中达到的状态。

马尔可夫性质的扩展


为了加深我们对马尔可夫性质的理解,我们可以如下看待它:

P(X(t+1)=j|X(0)=i0,X(1)=i1,…,X(t)=i)=P(X(t+1)=j|X(t)=i)

换句话说,该公式表示一种情况,即时间t+1时X的状态仅取决于时间t时X的一个先前状态,并且与过去的状态X(t-1)、…、X(1)无关。

现在让我们用一个简单的例子来进一步说明这一点。

在字符串“easy”中,根据马尔可夫属性,我们有:

  • P(x3=y|x0=e,x1=a,x2=s)表示y出现在时间3的概率,其中e出现在时间0,a出现在时间1,s出现在时间2
  • P(x3=y|x2=s)表示当s出现在时间2时y出现在时间3的概率


因此,在上述方程中,马尔可夫性质使P(easy)更容易计算,假设y仅取决于前一个邻居状态s,与e和a无关。这意味着当生成“easy”中的y时,我们只关心从s到y的转移概率,而不是从eas到y的转移概率。

当然,我们知道在现实世界中可能不会这样,但这个假设仍然有用。它帮助我们使复杂的情况变得可计算,而且大多数时候它工作得很好。

理解马尔可夫链


当我们将马尔可夫属性应用于随机过程时,我们称之为马尔可夫链。


图1:马尔可夫链
以下是马尔可夫链的公式化定义:


使用上图1,我们可以演示马尔可夫链如何生成单词。

假设我们分别从状态e、a和t开始,概率分别为40%、30%和30%。根据马尔可夫属性,可以逐个字母生成字符串,只考虑紧挨着它的字母。

例如,我们有40%的概率在时间0从e开始。然后我们在时间1从状态e移动到状态a以获得ea。为了得到“吃”这个词,我们在时间2直接从状态a移动到状态t,而不考虑之前的状态e。


通过上述计算,我们可以看到,这个马尔可夫链给了吃和茶同样高的分数,而aet的分数最低。这个公式表明,吃和茶更像单词,而aet似乎根本不是单词。

总结


在这篇关于马尔可夫的简短介绍中,我们了解到:

  • 马尔可夫性质和链是如何定义的。
  • 马尔可夫属性如何计算单词概率。
  • 马尔可夫链如何生成单词。


现在,我们已经为讨论马尔可夫决策过程做好了准备。下周就要来了;不要错过!

本文地址
最后修改
星期四, 九月 18, 2025 - 10:15
Article