×

正在处理。。。

即刻使用手机阅读

编程语言与程序设计 深入浅出强化学习:编程实战

作者:郭宪 字数:8.3万字 出版社:电子工业出版社

价格:6230阅饼

免费试读 购买
扫一扫 扫一扫

本书是《深入浅出强化学习:原理入门》的姊妹篇,写作的初衷是通过编程实例帮助那些想要学习强化学习算法的读者更深入、更清楚地理解算法。本书首先介绍马尔可夫决策过程的理论框架,然后介绍基于动态规划的策略迭代算法和值迭代算法,在此基础上分3篇介绍了目前强化学习算法中很基本的算法。篇讲解基于值函数的强化学习算法,介绍了基于两种策略评估方法(蒙特卡洛策略评估和时间差分策略评估)的强化学习算法,以及如何将函数逼近的方法引入强化学习算法中。第2篇讲解直接策略搜索方法,介绍了基本的策略梯度方法、AC方法、PPO方法和DDPG算法。第3篇讲解基于模型的强化学习方法,介绍了基于MPC的方法、AlphaZero算法基本原理及在五子棋上的具体实现细节。建议读者根据书中的代码亲自动手编程,并修改程序中的超参数,根据运行结果不断体会算法原理。

快来抢沙发~

快来说两句,抢沙发

获取掌阅iReader

京ICP备11008516号 (署)网出证(京)字第143号 京ICP证090653号 京公网安备11010502030452 营业执照 广播电视节目制作经营许可证 网络文化经营许可证 电子出版物制作许可证 出版物经营许可证

2015 All Rights Reserved 掌阅科技股份有限公司 版权所有

不良信息举报:jubao@zhangyue.com 举报电话:010-59845699