强化学习导论第三部分,planning, value function approximation, eligibility traces, policy gradient methods
强化学习第二部分
强化学习导论的学习内容, 包含上课内容与其他自己找的资料,主要是复习用,基本可以看做是 ppt + sutton 书的一些翻译+笔记