博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分布式强化学习基础概念(Distributional RL )
阅读量:6272 次
发布时间:2019-06-22

本文共 589 字,大约阅读时间需要 1 分钟。

 

分布式强化学习基础概念(Distributional RL)

 

from:

1. Q-learning

在 Q-learning 中,我们想要优化如下的 loss:

  

Distributional RL 的主要思想是:to work directly with the full distribution of the return rather than with its expectation.

假设随机变量 Z(s, a) 是获得的回报(return),那么:Q(s, a) = E(Z(s, a)) ; 并非像公式(1)中所要最小化的误差那样,也就是 期望的距离。

我们可以直接最小化这两个分布之间的距离,which is a distance between full distribution:

其中,R(s, a) 是即刻奖赏的随机变量,sup 是函数值的上界的意思,英文解释为:supremum。并且:

注意的是,我们依然用的是 Q(s, a),但是,此处我们尝试优化 distributions,而不是这些分布的期望。

 

2. Policy Evaluation

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 Reference Paper:

1. https://arxiv.org/pdf/1707.06887.pdf 

2. https://arxiv.org/pdf/1710.10044.pdf

 

 

 

转载地址:http://yflpa.baihongyu.com/

你可能感兴趣的文章
@RequestMapping注解中的url
查看>>
Spring
查看>>
Java基本数据类型学习笔记
查看>>
Django的全文检索
查看>>
ItelliJ IDEA开发工具使用—创建一个web项目
查看>>
搞V6记录
查看>>
OC与js交互获取webview元素和赋值
查看>>
分布式锁的实现
查看>>
ctags --- 每天一个 Linux 命令
查看>>
页面加载新的东西到页面底部
查看>>
java执行命令行,路径有空格的解决办法
查看>>
test
查看>>
學習 React.js:用 Node 和 React.js 創建一個實時的 Twitter 流
查看>>
solr-4.10.4部署到tomcat6
查看>>
切片键(Shard Keys)
查看>>
淘宝API-类目
查看>>
virtualbox 笔记
查看>>
redis操作数据-sets
查看>>
Git 常用命令
查看>>
驰骋工作流引擎三种项目集成开发模式
查看>>