카테고리 없음

[강화학습] A3C n-스텝 가치 추정

yennle 2023. 7. 25. 18:45
728x90

목적함수의 그래디언트를 계산할 때, 어드밴티지가 편향 없이 작은 분산값을 갖도록 추정하는 것이 중요하다.

A2C 알고리즘에서는 가치함수를 근사하는 함수 $V_{\phi} (x_t)$를 다음과 같이 1-스텝 관계식을 이용해 추정한다.

 

$$V_{\phi} (x_t) \approx r(x_t, u_t) + \gamma V_{\phi} (x_{t+1})$$

 

어드밴티지도 1-스텝 관계식을 이용해 근사적으로 계산한다.

 

$$A_{\phi} (x_t, u_t) \approx r(x_t, u_t) + \gamma V_{\phi} (x_{t+1}) - V_{\phi}(x_t)$$

 

 

1-스텝 관계식을 이용하면 어드밴티지 추정값의 분산은 작지만, 

상태가치의 추정 정확도에 따라 어드밴티지 추정값에 큰 편향이 있을 수 있다.

 


 

무한 구간에서 행동가치 함수의 정의에 따라 몬테카를로 방식으로

한 개의 에피소드에서 다음식과 같이 어드밴티지를 계산한다면,

어드밴티지의 추정값에 편향은 없지만 큰 분산을 갖게 된다.

수많은 단계의 상태와 행동에서의 보상이 누적되기 때문이다.

 

$$V_{\phi} (x_t) \approx \sum_{k=t}^{\infty} \gamma^{k-t} r(x_t, u_t) + \gamma V_{\phi} (x_{t+1})$$

 


이 양극단의 중간을 취하면서 편향과 분산을 적절히 조절할 수 있는 방식

바로 다음과 같은 n-스텝 가치함수 추정과 어드밴티지 계산 방법이다.

 


$$V_{\phi} (x_t) \approx r(x_t, u_t) + \gamma r(x_{t+1}, u_{t+1}) + \cdots + \gamma^{n-1} r(x_{t+n-1}, u_{t+n-1}) + \gamma^{n}V_{\phi} (x_{t+1})$$
\begin{align*}
A_{\phi} (x_t, u_t) &\approx r(x_t, u_t) + \gamma r(x_{t+1}, u_{t+1}) + \cdots + \gamma^{n-1} r(x_{t+n-1}, u_{t+n-1}) + \gamma^{n}V_{\phi} (x_{t+1})  - V_{\phi}(x_t) \\
&= \sum_{k=t}^{t+n-1 } \gamma^{k-t} r(x_k, u_k) + \gamma^n V_{\phi} (x_{t+n}) -V_{\phi} (x_{n})
\end{align*}

 

n이 크면 어드밴티지 추정값의 분산은 커지고, 편향이 작아지는 반면,

n이 작으면 분산은 작아지고 편향은 커질 수 있다. 

 

A3C알고리즘에서는 n-스텝 가치함수 추정과 어드밴티지 계산 방법을 도입해

분산과 편향을 상대적으로 조절하도록 했다.

 

 

[출처]

박성수, 「수학으로 풀어보는 강화학습 원리와 알고리즘」, 위키북스(2020)

 

 

728x90