카테고리 없음

[강화학습] 강화학습 개요

yennle 2022. 10. 31. 13:59
728x90

강화학습이란 ?

주어진 어떤 상황(state)에서 보상(reward)최대화할 수 있는 행동(action)에 대해 "학습"하는 것.

상태 -> 행동 -> 보상. 일련의 과정을 통해 학습

 

학습 주체는 환경에 대해 모르는 상태에서 학습

상황에 가장 적합한 행동을 찾기까지 수많은 시행착오를 겪음(trial & error)

현재의 행동이 미래에도 영향을 미침(delayed reward)

 

예시 : 벽돌깨기 게임

상황/상태(state) : 현재 벽돌 상태, 구슬의 위치, 하단 바의 위치 등의 정보

행동(action) : 상황 정보를 가지고 하단 바를 어떻게 움직일지 결정

보상(reward) : 어떤 행동을 했을 때, 벽돌이 깨지는 양

 

 

 

학습 주체(Agent)환경(Environment)과의 일련의 상호작용을 하게 됨.

학습 주체는 상태(State)를 보고 어떤 행동(Action)을 취하게 됨. -> 환경에 변화가 생김 -> 행동에 따른 보상을 받게 돼 있음.

그 보상이 학습주체에게 전달이 되어 어떤 행동이 잘 된 행동이고 못된 행동인지 학습하게 됨.

 

자건거를 탈때 핸들을 어떻게 움직이느냐에 따라 넘어지느냐 잘 가느냐 결정됨 <- 행동을 통해 보상을 얻는 과정

그 다음에 핸들을 어떻게 움직여야 하는지에 대해서 학습하게 됨. <- 학습

 

 


지도학습, 비지도학습, 강화학습

지도학습

정답 데이터(레이블)가 주어진 상태에서 학습 -> 즉각적인 피드백을 받으며 학습

=> 미래를 예측하거나, 정답이 있는 결과를 맞추는데 활용

 

 

비지도 학습

정답 데이터가 존재하지 않음.

=> 주로 데이터 자체에 내재되어 있는 성질을 찾아내는데 활용

 

 

강화학습

정답 데이터가 존재하지 않음.

환경과의 상호작용을 통해 얻은 보상(reward)으로부터 학습

예) 제퍼디, 벽돌깨기, 알파고, DeepRacer, 딥마인드 데이터,센터 에너지관리 시스템,

로봇 제어, 주식 트레이딩, 온라인 유저 추천시스템, 자연어 처리 등

 

 

 

[참고]

http://www.kmooc.kr/courses/course-v1:KoreaUnivK+ku_ai_002+2020_A44/about

728x90