목록전체 글 (157)

Just Fighting

[강화학습] A2C 알고리즘

목적함수 그래디언트 계산 목적함수 그래디언트는 샘플링 기법을 이용하면 다음과 같이 근사적으로 계산할 수 있다. θJ(θ)Tt=0(1MMm=1(θlogπθ(u(m)t|x(m)t)Aπθ(x(m)t,u(m)t))) 여기서, m은 에피소드 인덱스이며, M은 에피소드 개수다. 한 개의 에피소드만 고려하면 목적함수는 근사적으로 다음과 같다. \begin{align*} \bigt..

카테고리 없음 2023. 6. 27. 21:32
[강화학습] 정책 그래디언트 - 목적함수

강화학습의 최종 목표는 환경으로부터 받는 누적 보상을 최대화하는 최적 정책을 구하는 것 ! 정책을 파라미터화하고, 누적 보상을 파라미터화 된 정책의 함수로 기술해 누적보상과 정책 파라미터를 계산하는 방법론을 정책 그래디언트라고 한다. 목적함수 강화학습의 목표는 반환값의 기댓값으로 이루어진 목적함수 J를 최대로 만드는 정책 π(ut|xt)를 구하는 것. 즉, πθ(ut|xt)라면 목적함수를 최대로 만드는 정책 파라미터 θ를 계산하는 것이다. θ=argmaxJ(θ) J(θ)=Eτpθ(τ)[Tl=0γlr(xt,ut)] * $r(x_t,u_..

카테고리 없음 2023. 5. 23. 20:14
[강화학습] 벨만 방정식

행동가치 함수를 시간구간 [t,t+n1]에서 전개한다. Qπ(Xt,ut)=Eτut+1:uTp(τut+1:uT)[Tk=tγktr(Xk,uk)|Xt,ut]=τut+1:uT(rt+γrt+1++γn1rt+n1+Tk=t+nγktr(Xk,uk))p(τut+1:uT|Xt,ut)dτut+1:uT * t+nT이고,..

카테고리 없음 2023. 5. 21. 13:54
[강화학습] 가치함수

상태가치(state_value) 가치 함수란 어떤 상태변수 Xt에서 시작해 정책 π에 의해서 행동이 가해졌을 때 기대할 수 있는 반환값 Vπ(Xt)=Eτut:uTp(τut:uT)[Tk=tγktr(Xk,uk)|Xt]=τut:uT(Tk=tγktr(Xk,uk))p(τut:uT|Xt)dτut:uT * 아래 첨차 p(τut:uT|Xt)는 기댓값 계산 시 확률밀도함수로 조건부 밀도함수 $p(\ta..

카테고리 없음 2023. 5. 21. 11:05