목록전체 글 (157)

Just Fighting

[강화학습] A3C n-스텝 가치 추정

목적함수의 그래디언트를 계산할 때, 어드밴티지가 편향 없이 작은 분산값을 갖도록 추정하는 것이 중요하다. A2C 알고리즘에서는 가치함수를 근사하는 함수 Vϕ(xt)를 다음과 같이 1-스텝 관계식을 이용해 추정한다. Vϕ(xt)r(xt,ut)+γVϕ(xt+1) 어드밴티지도 1-스텝 관계식을 이용해 근사적으로 계산한다. Aϕ(xt,ut)r(xt,ut)+γVϕ(xt+1)Vϕ(xt) 1-스텝 관계식을 이용하면 어드밴티지 추정값의 분산은 작지만, 상태가치의 추정 정확도에 따라 어드밴티지 추정값에 큰 편향이 있을 수 있다. 무한..

카테고리 없음 2023. 7. 25. 18:45