Just Fighting

[강화학습] 마르코프 결정 프로세스(MDP) 본문

카테고리 없음

[강화학습] 마르코프 결정 프로세스(MDP)

yennle 2023. 5. 9. 21:26
728x90

강화학습의 프로세스

▶ 강화학습이란?

  • 에이전트가 상태와 행동을 통해 환경과 상호작용하고, 보상 기능에 따라 보상을 받는 방식

강화학습에서의 에이전트와 환경의 상호작용

(1) 에이전트는 환경의 상태를 측정

(2) 측정한 상태에서 에이전트의 정책*으로 선택한 행동을 환경에 적용

   *정책이란 측정한 상태를 바탕으로 최선의 행동을 선택하기 위한 에이전트의 규칙 또는 방법

(3) 행동에 의해 환경의 상태는 다음 상태($ x_{t+1} $)로 전환

(4) 전환된 환경을 바탕으로 다시 에이전트는 새로운 행동을 실행

(5) 환경으로부터 주어지는 즉각적인 보상을 사용해 장기적인 성과를 계산 또는 예측해 에이전트의 정책을 개선

 


 

마르코브 결정 프로세스

 마르코프 결정 프로세스(MDP)란?

  • 상태($x_t$), 상태천이 확률밀도함수($p$)와 행동($u_t$), 보상함수($r(x_t, u_t)$)로 이루어진 이산시간 확률 프로세스
  • 순차적으로 행동을 결정해야하는 문제를 풀기 위한 수학 모델
  • 누적된 보상을 가장 많이 획득하기 위해 각 상태에서 어떤 행동을 취할 것인가를 나타내는 조건부 확률밀도함수를 구하는 것.

 

확률밀도함수 $p$

  • 확률밀도함수는 어떤 상태($x_t$)에서 에이전트가 행동($u_t$)를 선택 했을 때 다음 상태($x_{t+1}$)로 갈 확률밀도함수
  • 상태천이 확률밀도함수를 과거와 상관없이 현재의 상태와 행동만 영향 받도록 정의했기 때문에 마르코프 시퀀스

$$p(x_{t+1}|x_t, u_t)$$

 

 보상함수 $r(x_t, u_t)$

  • 어떤 상태($x_t$)에서 에이전트가 행동($u_t$)을 선택했을 때 받을 수 있는 보상
  • 보상은 랜덤 변수로서 환경으로부터 주어진다.

 

▶ 정책

  • 어떤 상태($x_t$)에서 에이전트가 어떤 행동($u_t$)을 할 확률

$$\pi(u_t|x_t) = p(u_t|x_t)$$

 

 마르코프 결정 프로세스 전개

 

① 상태변수 $x_i$에서 어떤 정책 $\pi$에 의해 $u_i$가 확률적으로 선택(샘플링)됨

② 상태천이 확률에 의해 상태변수 $x_{i+1}$로 이동

③ 이때 환경에 대한 보상 $r(x_i,u_i)$이 주어짐

반복 !

 

=> 이러한 과정이 반복되어 상태변수, 행동, 보상의 순서로 전개

 

 

▶ 궤적(trajectory) $\tau$

  • 상태변수와 행동의 연속적인 시퀀스

$$\tau = (x_0,u_0, x_1,u_1, x_2, u_2, ..., x_T, u_T)$$

 

 

▶ 반환값(리턴, $G$)

  • 시간 t 이후에 얻을 수 있는 보상의 총합

\begin{align*}
G_t &= r(x_t,u_t) + \gamma r(x_{t+1},u_{t+1}) + \gamma^2 r(x_{t+2},u_{t+2}) + ... +\gamma^(T-t) r(x_{T},u_{T}) \\
&=\sum_{k=t}^{T} \gamma^(k-t)r(x_k,u_k) 
\end{align*} 

 

  • $r(x_t,u_t) $는 시간 t일 때, 상태변수가 $x_t$에서 행동 $ u_t$를 사용했을 때 에이전트가 받는 보상을 나타냄.
  • $\gamma\in [0,1]$ 은 감가율
  • 감가율의 값이 작을 수록 에이전트가 먼 미래에 받을 보상보다는 가까운 미래에 받을 보상에 더 큰 가중치를 둠.

 

▶ 에피소드

  • 어떤 정책 $\pi$를 실제로 실행해 상태변수, 행동, 보상이 $x_0\to u_0\to r(x_0,u_0)\to x_1\to u_1\to r(x_1,u_1) \to ... \to x_T\to u_T$의 순서로 전개됐다면 이러한 시퀀스 집합을 에피소드라고 함.
  • 에피소드는 특정 상태변수에 도달하는 등의 목적이 성취되면 종료되는 에피소드(유한 구간 에피소드)와 무한히 이어지는 에피소드(무한 구간 에피소드)가 있다.

 

 

 

 

[출처]

박성수, 「수학으로 풀어보는 강화학습 원리와 알고리즘」, 위키북스(2020)

 

728x90
Comments