欢迎访问安徽瀚文图书有限责任公司官网!

推购系统

异策略安全约束强化学习

ISBN:9787118137071
价格:88
副题名:
分辑号:
分辑名:
主要著作者:杨奇松[等]著
发行地:北京
出版社:国防工业出版社
出版日期:2025
页码:13,117页
开本:24cm
丛书项:
一般性附注:
读者对象:
主题词:机器学习
中图法分类:TP181
装帧:
版次:
图表:
语种:chi
本书探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先,介绍Worst-Case Soft Actor Critic(WCSAC)算法,该算法通过分析累积安全成本的分布,引入条件风险值作为安全约束,并自适应实现奖励与安全之间的平衡。其次,介绍两种估计安全成本分布的方法:高斯近似法和分位数回归算法,并通过仿真实验展示它们在风险控制中的效果。再次,进一步地针对目标奖励未知的情况,介绍Constrained Entropy Maximization(CEM)算法,旨在学习一个在安全前提下能够均匀