[강화학습] A3C n-스텝 가치 추정
목적함수의 그래디언트를 계산할 때, 어드밴티지가 편향 없이 작은 분산값을 갖도록 추정하는 것이 중요하다.
A2C 알고리즘에서는 가치함수를 근사하는 함수 $V_{\phi} (x_t)$를 다음과 같이 1-스텝 관계식을 이용해 추정한다.
$$V_{\phi} (x_t) \approx r(x_t, u_t) + \gamma V_{\phi} (x_{t+1})$$
어드밴티지도 1-스텝 관계식을 이용해 근사적으로 계산한다.
$$A_{\phi} (x_t, u_t) \approx r(x_t, u_t) + \gamma V_{\phi} (x_{t+1}) - V_{\phi}(x_t)$$
1-스텝 관계식을 이용하면 어드밴티지 추정값의 분산은 작지만,
상태가치의 추정 정확도에 따라 어드밴티지 추정값에 큰 편향이 있을 수 있다.
무한 구간에서 행동가치 함수의 정의에 따라 몬테카를로 방식으로
한 개의 에피소드에서 다음식과 같이 어드밴티지를 계산한다면,
어드밴티지의 추정값에 편향은 없지만 큰 분산을 갖게 된다.
수많은 단계의 상태와 행동에서의 보상이 누적되기 때문이다.
$$V_{\phi} (x_t) \approx \sum_{k=t}^{\infty} \gamma^{k-t} r(x_t, u_t) + \gamma V_{\phi} (x_{t+1})$$
이 양극단의 중간을 취하면서 편향과 분산을 적절히 조절할 수 있는 방식이
바로 다음과 같은 n-스텝 가치함수 추정과 어드밴티지 계산 방법이다.
$$V_{\phi} (x_t) \approx r(x_t, u_t) + \gamma r(x_{t+1}, u_{t+1}) + \cdots + \gamma^{n-1} r(x_{t+n-1}, u_{t+n-1}) + \gamma^{n}V_{\phi} (x_{t+1})$$
\begin{align*}
A_{\phi} (x_t, u_t) &\approx r(x_t, u_t) + \gamma r(x_{t+1}, u_{t+1}) + \cdots + \gamma^{n-1} r(x_{t+n-1}, u_{t+n-1}) + \gamma^{n}V_{\phi} (x_{t+1}) - V_{\phi}(x_t) \\
&= \sum_{k=t}^{t+n-1 } \gamma^{k-t} r(x_k, u_k) + \gamma^n V_{\phi} (x_{t+n}) -V_{\phi} (x_{n})
\end{align*}
n이 크면 어드밴티지 추정값의 분산은 커지고, 편향이 작아지는 반면,
n이 작으면 분산은 작아지고 편향은 커질 수 있다.
A3C알고리즘에서는 n-스텝 가치함수 추정과 어드밴티지 계산 방법을 도입해
분산과 편향을 상대적으로 조절하도록 했다.
[출처]
박성수, 「수학으로 풀어보는 강화학습 원리와 알고리즘」, 위키북스(2020)