01595nam a2200349 c 4500001001300000005001500013007000300028008004100031020003400072041001300106049002800119052001800147056001400165082001500179240017900194245022300373246015300596260003600749300003500785500003000820504003400850546004100884650004500925650004700970700002201017700003601039880007301075880004101148880002601189900001901215950001101234KMO20201618320240220104425ta200406s2020 ulkd 001 kor a9791156007401g93000:c\390001 akorheng0 lEM7565739lEM7565740c201a004.73b20-48 a004.732601a006.3122300aDeep reinforcement learning hands-on,papply modern RL methods, with deep Q-networks, value iteration, policy gradients, TRPO, AlphaGo zero and more.l한국어0KAT202406099006880-01a해법코드로 설명한 심층강화학습 :b반복 강화학습, 정책 그라디언트, TRPO, AlphaGo Zero 등 Q-네트워크를 이용한 최신 RL 방법 적용! /dMaxim Lapan 지음 ;e이승익 옮김19aDeep reinforcement learning hands-on:bapply modern RL methods, with deep Q-networks, value iteration, policy gradients, TRPO, AlphaGo zero and more 6880-02a서울 :b홍릉,c2020 axvi, 568 p. :b도표 ;c26 cm a원저자명: Maxim Lapan a참고문헌과 색인 수록 a영어 원작을 한국어로 번역 8a딥 러닝[deep learning]0KSH2016000040 8a기계 학습[機械學習]0KSH20160000291 aLapan, Maxim4aut1 6880-03a이승익0KAC2018J6609006245-01/(BaHaebeop kodeu ro seolmyeong han simcheung ganghwa hakseup 6260-02/(BaSeoul :bHongneung,c20201 6700-03/(BaI, Seungik10a라판, 맥심0 b\39000