醋醋百科网

Good Luck To You!

小红书大模型探索实践:从0到1构建自研RLHF框架


请把批评和失败从你的字典中删去,用另一个词来替换

大学的毕业季,为了吸引学生投简历,有很多公司回到学校来做宣讲。我在毕业之前找工作,也参加过很多这样的宣讲会。有一家公司的老总来我们学校做宣讲。这个老总叫刘景泰,当时是南开大学机器人研究所的副所长。他提到一个问题,我一直记得。他问我们:你们学了4年的自动化,谁能用一个词告诉我,自动化是什么?能坐满100人的教室鸦雀无声。最后,他揭示的答案只有2个字:

DeepMind创始人ICML2016讲座:深度增强学习(64页ppt下载)

C新智元推荐

推荐收藏本PPT,在新智元后台回复0620可下载。

深度增强学习 David Silver Google DeepMind

大纲

  • 深度学习介绍

  • 增强学习介绍

  • 基于价值的深度增强学习

  • 基于策略的深度增强学习

Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定

监督微调(SFT)基本上是现在训练大模型时必走的路。不管你要让模型干什么,先用 SFT 让它学会基本的指令跟随和对话能力,然后再通过 PPO 或者 GRPO 这些强化学习方法进一步调优。

但 SFT 有个老毛病:容易过拟合。模型会死记硬背训练数据,泛化能力变差。更要命的是,经过 SFT 训练的模型在后续的强化学习阶段往往探索能力不足,这就是所谓的"熵坍塌"现象 - 模型变得过于确定,生成的内容单调乏味。

这篇论文提出了 Proximal Supervised Fine-Tuning (PSFT),本质上是把 PPO 的思路引入到 SFT 中。这个想法挺巧妙的:既然 PPO 能够稳定策略更新,那为什么不用类似的机制来稳定监督学习的参数更新呢?

人工智能学习路线图_加快推进人工智能创新发展

参考了抖音上多位博主的观点,现在总结了一下人工智能学习的路线图,仅供大家参考。另外,我也会按照这个学习路线路学习人工智能相关知识,并分享到今日头条中。

第一步

语言:Python

循环状态空间模型(RSSM):从像素学习环境动态,强化学习新利器

想让智能体通过图像输入学会预测环境变化并做出智能决策?循环状态空间模型(RSSM)正是实现这一目标的核心技术,本文将带你深入理解并实战实现这一强大模型。

在现代人工智能领域,如何让智能系统从高维感官输入(如图像像素)中学习环境动态并进行有效规划,一直是一个核心挑战。循环状态空间模型(Recurrent State Space Model, RSSM)作为基于模型的强化学习中的关键技术,为解决这一问题提供了优雅而有效的方案。

听说你的多智能体强化学习算法不work?你用对MAPPO了吗

机器之心发布

机器之心编辑部

清华和UC伯克利联合研究发现,在不进行任何算法或者网络架构变动的情况下,用 MAPPO(Multi-Agent PPO)在 3 个具有代表性的多智能体任务(Multi-Agent Particle World, StarCraftII, Hanabi)中取得了与 SOTA 算法相当的性能。

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心报道

机器之心编辑部

Apple Grapples With AI Talent Exodus as Tech Giants Compete for Top Researchers

TMTPOST -- Apple has lost four high-profile artificial intelligence (AI) researchers in a development that highlights an ongoing trend: top talent in the AI sector is highly mobile, and high salaries alone aren’t the only reason engineers change companies.

Ray和RLlib用于快速并行强化学习_ray和ssr

Ray不仅仅是一个用于多处理的库,Ray的真正力量来自于RLlib和Tune库,它们利用了强化学习的这种能力。它使你能够将训练扩展到大型分布式服务器,或者利用并行化特性来更有效地使用你自己的笔记本电脑进行训练。

我们展示了如何使用Ray和RLlib在OpenAI Gym上构建一个自定义的强化学习环境。

一个RLlib教程

一旦你用pip install ray[rllib]安装了Ray和RLlib,你就可以用命令行中的一个命令来训练你的第一个RL代理:

<< 1 2 > >>
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言