Just Fighting
[강화학습] 마르코프 결정 프로세스(MDP) 본문
강화학습의 프로세스
▶ 강화학습이란?
- 에이전트가 상태와 행동을 통해 환경과 상호작용하고, 보상 기능에 따라 보상을 받는 방식
(1) 에이전트는 환경의 상태를 측정
(2) 측정한 상태에서 에이전트의 정책*으로 선택한 행동을 환경에 적용
*정책이란 측정한 상태를 바탕으로 최선의 행동을 선택하기 위한 에이전트의 규칙 또는 방법
(3) 행동에 의해 환경의 상태는 다음 상태($ x_{t+1} $)로 전환
(4) 전환된 환경을 바탕으로 다시 에이전트는 새로운 행동을 실행
(5) 환경으로부터 주어지는 즉각적인 보상을 사용해 장기적인 성과를 계산 또는 예측해 에이전트의 정책을 개선
마르코브 결정 프로세스
▶ 마르코프 결정 프로세스(MDP)란?
- 상태($x_t$), 상태천이 확률밀도함수($p$)와 행동($u_t$), 보상함수($r(x_t, u_t)$)로 이루어진 이산시간 확률 프로세스
- 순차적으로 행동을 결정해야하는 문제를 풀기 위한 수학 모델
- 누적된 보상을 가장 많이 획득하기 위해 각 상태에서 어떤 행동을 취할 것인가를 나타내는 조건부 확률밀도함수를 구하는 것.
▶ 확률밀도함수 $p$
- 확률밀도함수는 어떤 상태($x_t$)에서 에이전트가 행동($u_t$)를 선택 했을 때 다음 상태($x_{t+1}$)로 갈 확률밀도함수
- 상태천이 확률밀도함수를 과거와 상관없이 현재의 상태와 행동만 영향 받도록 정의했기 때문에 마르코프 시퀀스
$$p(x_{t+1}|x_t, u_t)$$
▶ 보상함수 $r(x_t, u_t)$
- 어떤 상태($x_t$)에서 에이전트가 행동($u_t$)을 선택했을 때 받을 수 있는 보상
- 보상은 랜덤 변수로서 환경으로부터 주어진다.
▶ 정책
- 어떤 상태($x_t$)에서 에이전트가 어떤 행동($u_t$)을 할 확률
$$\pi(u_t|x_t) = p(u_t|x_t)$$
▶ 마르코프 결정 프로세스 전개
① 상태변수 $x_i$에서 어떤 정책 $\pi$에 의해 $u_i$가 확률적으로 선택(샘플링)됨
② 상태천이 확률에 의해 상태변수 $x_{i+1}$로 이동
③ 이때 환경에 대한 보상 $r(x_i,u_i)$이 주어짐
반복 !
=> 이러한 과정이 반복되어 상태변수, 행동, 보상의 순서로 전개
▶ 궤적(trajectory) $\tau$
- 상태변수와 행동의 연속적인 시퀀스
$$\tau = (x_0,u_0, x_1,u_1, x_2, u_2, ..., x_T, u_T)$$
▶ 반환값(리턴, $G$)
- 시간 t 이후에 얻을 수 있는 보상의 총합
\begin{align*}
G_t &= r(x_t,u_t) + \gamma r(x_{t+1},u_{t+1}) + \gamma^2 r(x_{t+2},u_{t+2}) + ... +\gamma^(T-t) r(x_{T},u_{T}) \\
&=\sum_{k=t}^{T} \gamma^(k-t)r(x_k,u_k)
\end{align*}
- $r(x_t,u_t) $는 시간 t일 때, 상태변수가 $x_t$에서 행동 $ u_t$를 사용했을 때 에이전트가 받는 보상을 나타냄.
- $\gamma\in [0,1]$ 은 감가율
- 감가율의 값이 작을 수록 에이전트가 먼 미래에 받을 보상보다는 가까운 미래에 받을 보상에 더 큰 가중치를 둠.
▶ 에피소드
- 어떤 정책 $\pi$를 실제로 실행해 상태변수, 행동, 보상이 $x_0\to u_0\to r(x_0,u_0)\to x_1\to u_1\to r(x_1,u_1) \to ... \to x_T\to u_T$의 순서로 전개됐다면 이러한 시퀀스 집합을 에피소드라고 함.
- 에피소드는 특정 상태변수에 도달하는 등의 목적이 성취되면 종료되는 에피소드(유한 구간 에피소드)와 무한히 이어지는 에피소드(무한 구간 에피소드)가 있다.
[출처]
박성수, 「수학으로 풀어보는 강화학습 원리와 알고리즘」, 위키북스(2020)