醋醋百科网

Good Luck To You!

DeepMind创始人ICML2016讲座:深度增强学习(64页ppt下载)

C新智元推荐

推荐收藏本PPT,在新智元后台回复0620可下载。

深度增强学习 David Silver Google DeepMind

大纲

  • 深度学习介绍

  • 增强学习介绍

  • 基于价值的深度增强学习

  • 基于策略的深度增强学习

  • 基于模型的深度增强学习

增强学习概述

  • 增强学习是一种用于决策的通用框架

  • 增强学习指的是具有行动能力的智能体

  • 每一步行动都会影响智能体的未来状态

  • 成功由标量的回报信号来衡量

  • 目标:选择行动,实现未来回报的最大化

深度学习概述

  • 深度学习是一种表示(representation)学习通用框架

  • 给定对象

  • 学习为了实现获取目标所必需的表示

  • 直接从原始输入中获取

  • 使用最小化的域知识

深度增强学习:AI=增强学习+深度学习

我们希望找到一个简单的智能体,它能承担所有人类水平的任务。

  • RL 定义目标

  • DL 提供机制

  • RL+DL=通用智能

DeepMind 深度增强学习的应用例子

  • 玩游戏:Atari,Poker,GO,…

  • 导航:3D世界,迷宫,…

  • 控制物理系统:操作、行走、游泳,…

  • 与用户的交互:推荐、优化、个性化,…

深度学习

深度表示

一个深度表示由许多函数组成

其梯度可根据链规则反向传播

深度神经网络

一个深度神经网络一般由以下几个部分组成:

  • 线性变换

  • 非线性激活函数

  • 输出时的一个损失函数

随机梯度递减训练的神经网络

权重分享

循环神经网络在time-steps间分享权重

卷积神经网络在定位区域内分享权重

增强学习

多面增强学习

智能体和环境

状态 :状态是试验的总结

增强学习智能体的主要组成部分

一个增强学习智能体可能包含一个或者多个组成部分:

  • 策略:智能体的行为函数

  • 评估函数:每一个状态或者行动的好坏

  • 模型:智能体在环境中的表示

策略

策略就是智能体的行为,是从状态到行到的路线图

评估函数

评估函数用于预测未来的回报

优化评估函数

优化评估函数指的是可获得的价值的最大化

  • 模型从试验中进行学习

  • 作为环境的代理

  • Planner与模型互动

    例子:使用预测搜索

通往增强学习的三个途径

基于评估的增强学习:

  • 评估价值函数的最优化

  • 在所有策略下,可获得的最大化价值

基于策略的增强学习:

  • 直接从优化策略中进行搜索

  • 未来回报中可获得的最大化策略

基于模型的增强学习:

  • 建立环境模型

  • 使用模型计划,例如,预测

深度增强学习

使用深度神经网络来代表:

  • 价值函数

  • 策略

  • 模型

通过随机梯度递减优化损失函数深度增强学习

基于价值的深度增强学习

Q-networks

赋权后,用Q-network代表价值函数

最优化的Q-values应该遵循贝尔曼方程

深度Q-networks(DQN):经验回放

深度增强学习玩Atari

  • Q(s,a)中,从像素展开的端对端学习

  • 输入中的s是最新的四个框架中的一堆原始像素

  • 输出中的Q(s,a)是控制杆或者按钮的18个位置

  • 这些步骤中得分的改变会影响回报

Atari游戏中DQN的表现

Nature 上介绍DQN后的改进

通用增强学习架构

异步增强学习

  • 利用标准CPU的多线程

  • 同时执行多种情况下的智能体任务

  • 在不同线程间分享网络参数

  • 平行非关联数据

1、 经验回放中可代替的选择

2、 平行非相关数据

与通用增强学习相同的加速——在一台机器上。

基于策略的深度增强学习

深度策略网络

  • 用赋权的深度网络来表示策略

  • 定义目标函数,作为一种整体的折扣回报

  • 用SGD端对端的优化目标

例子:调整策略参数U来获得更多的回报

策略递减

如何提升高价值的行动的可能性:

Actor-Critic算法

  • Actor-Critic的异步优势

  • 评估函数的最新价值

  • n-step 样本评估Q-value

Actor-Critic的异步优势

迷宫中的深度增强学习

迷宫中的深度增强学习

  • 从像素中进行Softmax策略端对端学习

  • 观察值Ot 是当下框架中的原始像素

  • 状态St =f(01,…,Ot)是循环神经网络(LSTM)

……

连续行动中的深度增强学习

DPG是连续的DQN

DPG在模拟物理中的应用

A3C模拟物理Demo

  • 异步增强学习在经验回放中是可替换的

  • 训练一个分层的、循环的移动控制器

  • 在更艰巨的任务中训练控制器

虚拟自我回放(FSP)

深度增强学习能在多智能体的游戏中找到纳什均衡吗?

神经FSP玩德州扑克中

基于模型的深度增强学习

  • 学习环境模型

  • Demo:Atari的生成模型

  • 组合错误带来的执行挑战

深度增强学习玩围棋

结论

  • 通用的、稳定的和可伸缩的增强学习现在是可能的

  • 使用深度网络来表示价值、策略和模型

  • 在Atari,迷宫、物体移动、扑克和围棋中都成功了

  • 使用多种深度增强学习范式

新智元 616 有奖征稿令

自5月31日起,新智元开辟【名家专栏】,刊登人工智能专家提供给新智元的原创稿件。

新智元致力于促进人工智能产业的发展,技术研发与进步,在人工智能产业界、学术界有强大的影响力,为了进一步繁荣人工智能业界思想与技术的交流与分享,特向业界领袖和名家征稿:

1. 凡产业、学术界领袖、名家向新智元公众平台投稿,新智元标识名家专栏的原创稿件,采用为公众号头条的,稿费标准3000元以上

2. 凡产业、学术界领袖、名家向新智元公众平台投稿,新智元标识名家专栏的原创稿件,采用为公众号2-3条的,稿费标准千字300元以上

3. 凡产业、学术界精英、骨干向新智元公众平台投稿,新智元标识业界、学术的深度稿件,采用为公众号头条的,稿费标准千字300元以上

4. 凡在其他媒体或个人博客已经发布的稿件、投稿的专家或研发机构稿件获新智元采纳转载的,不付稿费,但可以附上个人简历、照片或者所在公司、实验室简短介绍或者原文链接。

【新智元诚聘人工智能领域特约编辑】凡产业、学术界精英、骨干(一般要求为博士)向新智元公众平台投稿,获聘担任栏目或产业、学术大会特约编辑的,稿费标准为千字300元以上。

新智元专家投稿微信号:X1239828904

新智元招聘信息请点击“阅读原文”

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言