2025年09月23日

请把批评和失败从你的字典中删去，用另一个词来替换

大学的毕业季，为了吸引学生投简历，有很多公司回到学校来做宣讲。我在毕业之前找工作，也参加过很多这样的宣讲会。有一家公司的老总来我们学校做宣讲。这个老总叫刘景泰，当时是南开大学机器人研究所的副所长。他提到一个问题，我一直记得。他问我们：你们学了4年的自动化，谁能用一个词告诉我，自动化是什么？能坐满100人的教室鸦雀无声。最后，他揭示的答案只有2个字：

2025年09月23日

DeepMind创始人ICML2016讲座:深度增强学习(64页ppt下载)

C新智元推荐

推荐收藏本PPT，在新智元后台回复0620可下载。

深度增强学习 David Silver Google DeepMind

大纲

深度学习介绍
增强学习介绍
基于价值的深度增强学习
基于策略的深度增强学习

2025年09月23日

Proximal SFT:用PPO强化学习机制优化SFT，让大模型训练更稳定

监督微调（SFT）基本上是现在训练大模型时必走的路。不管你要让模型干什么，先用 SFT 让它学会基本的指令跟随和对话能力，然后再通过 PPO 或者 GRPO 这些强化学习方法进一步调优。

但 SFT 有个老毛病：容易过拟合。模型会死记硬背训练数据，泛化能力变差。更要命的是，经过 SFT 训练的模型在后续的强化学习阶段往往探索能力不足，这就是所谓的"熵坍塌"现象 - 模型变得过于确定，生成的内容单调乏味。

这篇论文提出了 Proximal Supervised Fine-Tuning (PSFT)，本质上是把 PPO 的思路引入到 SFT 中。这个想法挺巧妙的：既然 PPO 能够稳定策略更新，那为什么不用类似的机制来稳定监督学习的参数更新呢？

2025年09月23日

人工智能学习路线图_加快推进人工智能创新发展

参考了抖音上多位博主的观点，现在总结了一下人工智能学习的路线图，仅供大家参考。另外，我也会按照这个学习路线路学习人工智能相关知识，并分享到今日头条中。

第一步

语言：Python

2025年09月23日

循环状态空间模型(RSSM):从像素学习环境动态，强化学习新利器

想让智能体通过图像输入学会预测环境变化并做出智能决策？循环状态空间模型（RSSM）正是实现这一目标的核心技术，本文将带你深入理解并实战实现这一强大模型。

在现代人工智能领域，如何让智能系统从高维感官输入（如图像像素）中学习环境动态并进行有效规划，一直是一个核心挑战。循环状态空间模型（Recurrent State Space Model, RSSM）作为基于模型的强化学习中的关键技术，为解决这一问题提供了优雅而有效的方案。

2025年09月23日

听说你的多智能体强化学习算法不work?你用对MAPPO了吗

机器之心发布

机器之心编辑部

清华和UC伯克利联合研究发现，在不进行任何算法或者网络架构变动的情况下，用 MAPPO（Multi-Agent PPO）在 3 个具有代表性的多智能体任务（Multi-Agent Particle World, StarCraftII, Hanabi）中取得了与 SOTA 算法相当的性能。

2025年09月23日

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

机器之心报道

机器之心编辑部

2025年09月23日

Apple Grapples With AI Talent Exodus as Tech Giants Compete for Top Researchers

TMTPOST -- Apple has lost four high-profile artificial intelligence (AI) researchers in a development that highlights an ongoing trend: top talent in the AI sector is highly mobile, and high salaries alone aren’t the only reason engineers change companies.

2025年09月23日

Ray和RLlib用于快速并行强化学习_ray和ssr

Ray不仅仅是一个用于多处理的库，Ray的真正力量来自于RLlib和Tune库，它们利用了强化学习的这种能力。它使你能够将训练扩展到大型分布式服务器，或者利用并行化特性来更有效地使用你自己的笔记本电脑进行训练。

我们展示了如何使用Ray和RLlib在OpenAI Gym上构建一个自定义的强化学习环境。

一个RLlib教程

一旦你用pip install ray[rllib]安装了Ray和RLlib，你就可以用命令行中的一个命令来训练你的第一个RL代理:

醋醋百科网

Good Luck To You!

小红书大模型探索实践:从0到1构建自研RLHF框架

请把批评和失败从你的字典中删去，用另一个词来替换

DeepMind创始人ICML2016讲座:深度增强学习(64页ppt下载)

Proximal SFT:用PPO强化学习机制优化SFT，让大模型训练更稳定

人工智能学习路线图_加快推进人工智能创新发展

第一步

循环状态空间模型(RSSM):从像素学习环境动态，强化学习新利器

听说你的多智能体强化学习算法不work?你用对MAPPO了吗

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

Apple Grapples With AI Talent Exodus as Tech Giants Compete for Top Researchers

Ray和RLlib用于快速并行强化学习_ray和ssr

一个RLlib教程