4강 Model-Free Prediction
4장은 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해 학습 하게 되는 방식인 MC(Monte-Carlo)와 TD(Temporal-Difference) 대해 스터디 https://mpatacchiola.github.io/blog/2017/01/1...
4장은 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해 학습 하게 되는 방식인 MC(Monte-Carlo)와 TD(Temporal-Difference) 대해 스터디 https://mpatacchiola.github.io/blog/2017/01/1...
3장에서는 2장에서 배운 MDP에서 Control 즉 Optimal policy을 찾는 방법에 대해 스터디 한다. 이해를 돕기위해 https://sumniya.tistory.com/10?category=781573에서 예제를 참고함.
RL에서 가장 기본이 되는 이론인 MDP에 대해서 공부하고 정리
강화학습의 이론을 기본부터 공부 하기 위해서 UCL Courese On RL 강의를 보면서 정리 전반적인 용어 정리와 강화학습에 대해 소개한다.
이번 포스트에서는 Tensorflow Serving API를 이용하여 배포한 이미지 분류 모델을 inference하는 웹 어플리케이션을 django로 구현하는 방법을 설명 Tensorflow Serving 관련된 자세한 내용은 이전 포스트를 참고 https://bjo92...