C新智元推荐
推荐收藏本PPT,在新智元后台回复0620可下载。
深度增强学习 David Silver Google DeepMind
大纲
深度学习介绍
增强学习介绍
基于价值的深度增强学习
基于策略的深度增强学习
基于模型的深度增强学习
增强学习概述
增强学习是一种用于决策的通用框架
增强学习指的是具有行动能力的智能体
每一步行动都会影响智能体的未来状态
成功由标量的回报信号来衡量
目标:选择行动,实现未来回报的最大化
深度学习概述
深度学习是一种表示(representation)学习通用框架
给定对象
学习为了实现获取目标所必需的表示
直接从原始输入中获取
使用最小化的域知识
深度增强学习:AI=增强学习+深度学习
我们希望找到一个简单的智能体,它能承担所有人类水平的任务。
RL 定义目标
DL 提供机制
RL+DL=通用智能
DeepMind 深度增强学习的应用例子
玩游戏:Atari,Poker,GO,…
导航:3D世界,迷宫,…
控制物理系统:操作、行走、游泳,…
与用户的交互:推荐、优化、个性化,…
深度学习
深度表示
一个深度表示由许多函数组成
其梯度可根据链规则反向传播
深度神经网络
一个深度神经网络一般由以下几个部分组成:
线性变换
非线性激活函数
输出时的一个损失函数
随机梯度递减训练的神经网络
权重分享
循环神经网络在time-steps间分享权重
卷积神经网络在定位区域内分享权重
增强学习
多面增强学习
智能体和环境
状态 :状态是试验的总结
增强学习智能体的主要组成部分
一个增强学习智能体可能包含一个或者多个组成部分:
策略:智能体的行为函数
评估函数:每一个状态或者行动的好坏
模型:智能体在环境中的表示
策略
策略就是智能体的行为,是从状态到行到的路线图
评估函数
评估函数用于预测未来的回报
优化评估函数
优化评估函数指的是可获得的价值的最大化
模型从试验中进行学习
作为环境的代理
Planner与模型互动
例子:使用预测搜索
通往增强学习的三个途径
基于评估的增强学习:
评估价值函数的最优化
在所有策略下,可获得的最大化价值
基于策略的增强学习:
直接从优化策略中进行搜索
未来回报中可获得的最大化策略
基于模型的增强学习:
建立环境模型
使用模型计划,例如,预测
深度增强学习
使用深度神经网络来代表:
价值函数
策略
模型
通过随机梯度递减优化损失函数深度增强学习
基于价值的深度增强学习
Q-networks
赋权后,用Q-network代表价值函数
最优化的Q-values应该遵循贝尔曼方程
深度Q-networks(DQN):经验回放
深度增强学习玩Atari
Q(s,a)中,从像素展开的端对端学习
输入中的s是最新的四个框架中的一堆原始像素
输出中的Q(s,a)是控制杆或者按钮的18个位置
这些步骤中得分的改变会影响回报
Atari游戏中DQN的表现
Nature 上介绍DQN后的改进
通用增强学习架构
异步增强学习
利用标准CPU的多线程
同时执行多种情况下的智能体任务
在不同线程间分享网络参数
平行非关联数据
1、 经验回放中可代替的选择
2、 平行非相关数据
与通用增强学习相同的加速——在一台机器上。
基于策略的深度增强学习
深度策略网络
用赋权的深度网络来表示策略
定义目标函数,作为一种整体的折扣回报
用SGD端对端的优化目标
例子:调整策略参数U来获得更多的回报
策略递减
如何提升高价值的行动的可能性:
Actor-Critic算法
Actor-Critic的异步优势
评估函数的最新价值
n-step 样本评估Q-value
Actor-Critic的异步优势
迷宫中的深度增强学习
迷宫中的深度增强学习
从像素中进行Softmax策略端对端学习
观察值Ot 是当下框架中的原始像素
状态St =f(01,…,Ot)是循环神经网络(LSTM)
……
连续行动中的深度增强学习
DPG是连续的DQN
DPG在模拟物理中的应用
A3C模拟物理Demo
异步增强学习在经验回放中是可替换的
训练一个分层的、循环的移动控制器
在更艰巨的任务中训练控制器
虚拟自我回放(FSP)
深度增强学习能在多智能体的游戏中找到纳什均衡吗?
神经FSP玩德州扑克中
基于模型的深度增强学习
学习环境模型
Demo:Atari的生成模型
组合错误带来的执行挑战
深度增强学习玩围棋
结论
通用的、稳定的和可伸缩的增强学习现在是可能的
使用深度网络来表示价值、策略和模型
在Atari,迷宫、物体移动、扑克和围棋中都成功了
使用多种深度增强学习范式
新智元 616 有奖征稿令
自5月31日起,新智元开辟【名家专栏】,刊登人工智能专家提供给新智元的原创稿件。
新智元致力于促进人工智能产业的发展,技术研发与进步,在人工智能产业界、学术界有强大的影响力,为了进一步繁荣人工智能业界思想与技术的交流与分享,特向业界领袖和名家征稿:
1. 凡产业、学术界领袖、名家向新智元公众平台投稿,新智元标识名家专栏的原创稿件,采用为公众号头条的,稿费标准3000元以上;
2. 凡产业、学术界领袖、名家向新智元公众平台投稿,新智元标识名家专栏的原创稿件,采用为公众号2-3条的,稿费标准千字300元以上;
3. 凡产业、学术界精英、骨干向新智元公众平台投稿,新智元标识业界、学术的深度稿件,采用为公众号头条的,稿费标准千字300元以上。
4. 凡在其他媒体或个人博客已经发布的稿件、投稿的专家或研发机构稿件获新智元采纳转载的,不付稿费,但可以附上个人简历、照片或者所在公司、实验室简短介绍或者原文链接。
【新智元诚聘人工智能领域特约编辑】凡产业、学术界精英、骨干(一般要求为博士)向新智元公众平台投稿,获聘担任栏目或产业、学术大会特约编辑的,稿费标准为千字300元以上。
新智元专家投稿微信号:X1239828904
新智元招聘信息请点击“阅读原文”