2020년 6월 23일

스트림스 게임으로 시작하는 강화학습 [2]
최적화

스트림스 게임으로 시작하는 강화학습 [2]

이주행
이전 글 “스트림스 게임으로 시작하는 강화학습 [1]”에서 스트림스 게임의 성패는 매 순간 선택의 결과가 모두 모여 결정된다고 이야기했다. (물론 운도 크게 작용한다.) 지금까지 좋은 선택을 해왔다고 해도, 결정적인 순간에 한 번의 실수를 하게 되면 고득점을 얻는 데 치명적이다. 마지막까지 좋은 선택을 계속해야 최종적으로 고득점을 얻을 수 있다. 이러한 순차적 선택의 문제는 우리 주변에서 쉽게 찾아볼 수 있다. 대부분의 컴퓨터 게임이 그러하고, 로봇 제어의 문제도 관련이 있다. 이러한 순차적 선택의 문제를 선택과 보상의 개념을 도입하여 해결하겠다는 것이 강화학습의 기본 아이디어다.
Read more
HORIZON은 고등과학원이 발간하는 과학전문 웹진으로 최신 과학의 뛰어난 성과들을 전달하고자 합니다.
기존의 미디어에서 전달하지 않은 깊이와 학술적인 논문에서 펼치지 못하는 범위의 영역을 탐사해 보고자 합니다.
02455 서울특별시 동대문구 회기로 85 | Tel. 02-958-3711 | horizon@kias.re.kr