카테고리 없음

[강화학습] 마르코브 프로세스(Markov process)

yennle 2022. 11. 2. 14:22
728x90

 

마르코브 (의사)결정 프로세스(Markov decision process)는 강화학습의 수학적인 근간이 되는 이론

동적계획법 + 마르코브 프로세스 => Markov decision process


확률 과정(Stochastic Process, Random process)

확률적으로 변화하는 프로세스를 모델링하기 위해 수학적으로 접근하는 방법

시간의 흐름에 따라서 불확실성을 가지고 변동하는 추이를 바탕으로 미래를 예측

=> 불확실성을 가지고 변하는 일련의 프로세스

 

시간에 따른 확률변수들의 집합을 가지고 불확실성을 가지고 변동하는 프로세스들을 모델링하고자 함.

확률변수의 집합 -> 결합확률분포를 의미함. $P(X_0),\ P(X_0,X_1),\ P(X_0,X_1,X_2),\ \cdots$

 

확률 과정은 시간공간 T와 상태공간 S에서 정의된 확률변수들의 집합

시간공간 : 관찰 시점들의 집합

상태공간 : 확률과정 $\left\{X_t:t\in T \right\}$의 확률변수 $X_t$가 가질 수 있는 모든 가능한 값들의 집합

 

확률 과정의 분류

 

확률 과정을 알게 된다면 다음과 같은 것들을 구할 수 있게 됨.

-> 과거의 이력들이 주어졌을 때, 미래가 어떤 값이 될 것인가?

 


마르코브 프로세스(Markov Process)

마르코브 성질을 가진 확률과정

과거와 상관없이 현재 상태만 의존하는 가장 단순한 형태의 확률과정

 

마르코브 성질(Markov property)
미래는 현재로부터 정해지며, 과거는 영향을 주지 못한다.
\begin{align*} P(the\ future\ |\ the\ present,\ the\ past)\\ =\ P(the\ future\ |\ the\ present) \end{align*}

 


DTMC(Discrete-Time Markov Chain)

마르코브 프로세스 중 이산적인 단계별로 진행되는 마르코브 체인을 Discrete-Time Markov Chain이라고 함.

마르코브 체인(Markov Chain) : 확률변수가 셀 수 있는 값들 중 하나의 값을 선택하게 되는 경우

 

 

$$P(X_{n+1}=j|X_n=i, X_{n-1}, \cdots, X_0) = P(X_{n+1}=j|X_n=i)$$

$X_{n+1}=j$ : 미래,    $X_n=i$ : 현재,    $X_{n-1}, \cdots, X_0$ : 과거

$P(X_{n+1}=j|X_n=i)$ : 상태 전이 확률(i라는 상태가 있을 때, 다음 단계의 j가 될 확률)

 


시간 동질 DTMC(time-homogeneous DMTC)

전이확률 $P(X_{n+1}=j|X_n=i)$이 $n$에 독립적임

$P(X_{1}=j|X_0=i)=P(X_{400}=j|X_{500}=i) = P(X_{n+1}=j|X_n=i)$ 성립

=> $P(X_{n+1}=j|X_n=i) = p_{ij}$

 

 

 

[참고]

http://www.kmooc.kr/courses/course-v1:KoreaUnivK+ku_ai_002+2020_A44/about

 

728x90