Just Fighting

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Today

Total

관리 메뉴

목록전체 글 (157)

Just Fighting

앞서 어드밴티지 액터-크리틱(A2C) 알고리즘에 대해 다뤘다. A2C 알고치즘은 에피소드가 끝날 때까지 기다릴 필요 없이 샘플이 모이면 정책을 업데이트하고, 그래디언트의 분산을 줄였다. 그러나, A2C의 문제점은 샘플이 시간적으로 상관되어 있다는 것이다. 샘플 간의 높은 상관관계는 목적함수의 그래디언트를 편향시키고, 학습을 불안정하게 만들 수 있다. 또한, 학습 배치에 있는 서로 유사한 데이터는 신경망을 비슷한 방향으로 업데이트하게 된다. 위와 같은 문제점을 개선하기 위해 비동기 A2C(A3C, asynchronous advantage actor-critic) 알고리즘에 대해 공부한다. 샘플의 상관관계 어드밴티지 액터-크리틱에서 사용한 목적함수의 그래디언트 식은 다음과 같다. \begin{align*} ..

카테고리 없음 2023. 7. 18. 20:25

[강화학습] A2C 코드 공부

복습 실습에 앞서, 액터-크리틱 알고리즘의 순서에 대해 다시 되짚어보자 ! 2023.06.27 - [분류 전체보기] - [강화학습] AC2 알고리즘 1. 크리틱과 액터 신경망의 파라미터 $\phi$ , $\theta$ 초기화 2. 반복 2-1. 반복 2-1-1. 정책 $u_i \sim \phi_\theta(u_i|x_i)$ 으로 행동을 확률적으로 선택 2-1-2. $u_i$ 를 실행해 보상 $r(x_i,u_i)$ 과 다음 상태변수 $x_{i+1}$ 측정 2-1-3. 샘플 $(x_i, u_i, r(x_i,u_i), x_{i+1})$ 저장 2-2. 시간차 타깃 계산 2-3. 크리틱 신경망 손실함수 계산 2-4. 어드밴티지 계산 2-5. 크리틱 신경망 업데이트 2-6. 액터 신경망 업데이트 위의 순서대로 코드를 정리..

카테고리 없음 2023. 7. 18. 00:41

빈 이중배열과 주소값

빈 이중 배열을 미리 선언하고, 그 배열에 값을 하나씩 넣고자 했을 때 아래 코드를 사용했다. 그리고 그 결과는 다음과 같다. lli = [[]]*2 for i in range(2): for j in range(1,5): lli[i].append(j) print(lli) 내가 원하던 결과는 [[1,2,3,4,5],[1,2,3,4,5]]인데, 이렇게 나와서 이유를 찾아보니, 빈 배열인 경우에는 그 안에 포함된 모든 배열이 같은 주솟값을 갖는다고 한다. 이렇게 또 하나를 깨달았다..!

Python 2023. 7. 5. 17:35

[강화학습] A2C 알고리즘

목적함수 그래디언트 계산 목적함수 그래디언트는 샘플링 기법을 이용하면 다음과 같이 근사적으로 계산할 수 있다. $▽θJ(θ)≈T∑t=0(1MM∑m=1(▽θlogπθ(u(m)t|x(m)t)Aπθ(x(m)t,u(m)t)))<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mtable displaystyle="true" columnalign="right left" columnspacing="0em" rowspacing="3pt"><mtr><mtd><msub><mo>▽</mo><mi>θ</mi></msub><mi>J</mi><mo stretchy="false">(</mo><mi>θ</mi><mo stretchy="false">)</mo></mtd><mtd><mi></mi><mo>≈</mo><munderover><mo data-mjx-texclass="OP">∑</mo><mrow data-mjx-texclass="ORD"><mi>t</mi><mo>=</mo><mn>0</mn></mrow><mrow data-mjx-texclass="ORD"><mi>T</mi></mrow></munderover><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">(</mo><mfrac><mn>1</mn><mi>M</mi></mfrac><munderover><mo data-mjx-texclass="OP">∑</mo><mrow data-mjx-texclass="ORD"><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mrow data-mjx-texclass="ORD"><mi>M</mi></mrow></munderover><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">(</mo><msub><mo>▽</mo><mi>θ</mi></msub><mi>l</mi><mi>o</mi><mi>g</mi><msub><mi>π</mi><mi>θ</mi></msub><mo stretchy="false">(</mo><msubsup><mi>u</mi><mi>t</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">(</mo><mi>m</mi><mo stretchy="false">)</mo></mrow></msubsup><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msubsup><mi>x</mi><mi>t</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">(</mo><mi>m</mi><mo stretchy="false">)</mo></mrow></msubsup><mo stretchy="false">)</mo><msup><mi>A</mi><mrow data-mjx-texclass="ORD"><msub><mi>π</mi><mi>θ</mi></msub></mrow></msup><mo stretchy="false">(</mo><msubsup><mi>x</mi><mi>t</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">(</mo><mi>m</mi><mo stretchy="false">)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>u</mi><mi>t</mi><mrow data-mjx-texclass="ORD"><mo stretchy="false">(</mo><mi>m</mi><mo stretchy="false">)</mo></mrow></msubsup><mo stretchy="false">)</mo><mo data-mjx-texclass="CLOSE">)</mo></mrow><mo data-mjx-texclass="CLOSE">)</mo></mrow></mtd></mtr></mtable></math>$ 여기서, m은 에피소드 인덱스이며, M은 에피소드 개수다. 한 개의 에피소드만 고려하면 목적함수는 근사적으로 다음과 같다. \begin{align*} \bigt..

카테고리 없음 2023. 6. 27. 21:32

[강화학습] AC2 2

목적함수 그래디언트의 분산이 크면, 업데이트될 정책 파라미터 값이 들쭉날쭉해져 신경망 학습이 불안정해지며, 정책의 불확실성도 커진다. \begin{align*} \bigtriangledown_\theta J(\theta) &= \sum_{t=0}^{T} \left ( \int_{x_t,u_t}^{} \bigtriangledown_\theta log \pi_\theta (u_t|x_t) Q^{\pi_\theta}(x_t, u_t) \pi_\theta (u_t| x_t) p_\theta(x_t)] dx_t du_t \right ) \ &= \sum_{t=0}^{T}\left(E_{x_t \sim p_{\theta(x_t),u_t\sim\pi_\theta(u_t|x_t..

카테고리 없음 2023. 6. 20. 21:29

[강화학습] A2C

A2C(advantage actor-critrc)은 정책을 업데이트하기 위해서 에피소드가 끝날 때까지 기다려야 하며, 그래디언트의 분산이 매우 크다는 REINFORCE의 단점을 개선한 알고리즘이다. (살짝 개선한 것이지만 성능은 뛰어나다고 함!) \begin{align*} \bigtriangledown_\theta J(\theta) &= E_{\tau\sim p_\theta(\tau)}\left [ \sum_{t=0}^{T}\left ( \gamma^t \bigtriangledown_\theta log \pi_\theta (u_t|x_t)\left ( \sum_{k=t}^{T} \gamma^{k-t}r(x_k, u_k) \right ) \right ) \right..

카테고리 없음 2023. 6. 13. 21:38

[강화학습] 정책 그래디언트 - 목적함수

강화학습의 최종 목표는 환경으로부터 받는 누적 보상을 최대화하는 최적 정책을 구하는 것 ! 정책을 파라미터화하고, 누적 보상을 파라미터화 된 정책의 함수로 기술해 누적보상과 정책 파라미터를 계산하는 방법론을 정책 그래디언트라고 한다. 목적함수 강화학습의 목표는 반환값의 기댓값으로 이루어진 목적함수 $J$ 를 최대로 만드는 정책 $\pi(u_t|x_t)$ 를 구하는 것. 즉, $\pi_\theta(u_t|x_t)$ 라면 목적함수를 최대로 만드는 정책 파라미터 $\theta$ 를 계산하는 것이다. $θ * = a r g m a x J (θ) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>θ</mi><mo>*</mo></msup><mo>=</mo><mi>a</mi><mi>r</mi><mi>g</mi><mi>m</mi><mi>a</mi><mi>x</mi><mi>J</mi><mo stretchy="false">(</mo><mi>θ</mi><mo stretchy="false">)</mo></math>$ $J (θ) = E τ \sim p θ (τ) [T \sum l = 0 γ l r (x t, u t)] <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>J</mi><mo stretchy="false">(</mo><mi>θ</mi><mo stretchy="false">)</mo><mo>=</mo><msub><mi>E</mi><mrow data-mjx-texclass="ORD"><mi>τ</mi><mo>\sim</mo><msub><mi>p</mi><mi>θ</mi></msub><mo stretchy="false">(</mo><mi>τ</mi><mo stretchy="false">)</mo></mrow></msub><mo stretchy="false">[</mo><munderover><mo data-mjx-texclass="OP">\sum</mo><mrow data-mjx-texclass="ORD"><mi>l</mi><mo>=</mo><mn>0</mn></mrow><mrow data-mjx-texclass="ORD"><mi>T</mi></mrow></munderover><msup><mi>γ</mi><mi>l</mi></msup><mi>r</mi><mo stretchy="false">(</mo><msub><mi>x</mi><mi>t</mi></msub><mo>,</mo><msub><mi>u</mi><mi>t</mi></msub><mo stretchy="false">)</mo><mo stretchy="false">]</mo></math>$ * $r(x_t,u_..

카테고리 없음 2023. 5. 23. 20:14

[강화학습] 벨만 방정식

행동가치 함수를 시간구간 $[t, t+n-1]$ 에서 전개한다. * $t+n \leq T$ 이고,..

카테고리 없음 2023. 5. 21. 13:54

[강화학습] 가치함수

상태가치(state_value) 가치 함수란 어떤 상태변수 $X_t$ 에서 시작해 정책 $\pi$ 에 의해서 행동이 가해졌을 때 기대할 수 있는 반환값 * 아래 첨차 $p(\tau_{u_t:u_T}|X_t)$ 는 기댓값 계산 시 확률밀도함수로 조건부 밀도함수 $p(\ta..

카테고리 없음 2023. 5. 21. 11:05

[강화학습] 마르코프 결정 프로세스(MDP)

강화학습의 프로세스 ▶ 강화학습이란? 에이전트가 상태와 행동을 통해 환경과 상호작용하고, 보상 기능에 따라 보상을 받는 방식 (1) 에이전트는 환경의 상태를 측정 (2) 측정한 상태에서 에이전트의 정책*으로 선택한 행동을 환경에 적용 *정책이란 측정한 상태를 바탕으로 최선의 행동을 선택하기 위한 에이전트의 규칙 또는 방법 (3) 행동에 의해 환경의 상태는 다음 상태( $x_{t+1}$ )로 전환 (4) 전환된 환경을 바탕으로 다시 에이전트는 새로운 행동을 실행 (5) 환경으로부터 주어지는 즉각적인 보상을 사용해 장기적인 성과를 계산 또는 예측해 에이전트의 정책을 개선 마르코브 결정 프로세스 ▶ 마르코프 결정 프로세스(MDP)란? 상태( $x_t$ ), 상태천이 확률밀도함수( $p$ )와 행동( $u_t$ ), 보상..

카테고리 없음 2023. 5. 9. 21:26

Prev 1 2 3 4 5 6 ··· 16 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Just Fighting

목록전체 글 (157)

Just Fighting

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역