2025年09月23日
大学的毕业季,为了吸引学生投简历,有很多公司回到学校来做宣讲。我在毕业之前找工作,也参加过很多这样的宣讲会。有一家公司的老总来我们学校做宣讲。这个老总叫刘景泰,当时是南开大学机器人研究所的副所长。他提到一个问题,我一直记得。他问我们:你们学了4年的自动化,谁能用一个词告诉我,自动化是什么?能坐满100人的教室鸦雀无声。最后,他揭示的答案只有2个字:
2025年09月23日
C新智元推荐
推荐收藏本PPT,在新智元后台回复0620可下载。
深度增强学习 David Silver Google DeepMind
大纲
深度学习介绍
增强学习介绍
基于价值的深度增强学习
基于策略的深度增强学习
2025年09月23日
监督微调(SFT)基本上是现在训练大模型时必走的路。不管你要让模型干什么,先用 SFT 让它学会基本的指令跟随和对话能力,然后再通过 PPO 或者 GRPO 这些强化学习方法进一步调优。
但 SFT 有个老毛病:容易过拟合。模型会死记硬背训练数据,泛化能力变差。更要命的是,经过 SFT 训练的模型在后续的强化学习阶段往往探索能力不足,这就是所谓的"熵坍塌"现象 - 模型变得过于确定,生成的内容单调乏味。
这篇论文提出了 Proximal Supervised Fine-Tuning (PSFT),本质上是把 PPO 的思路引入到 SFT 中。这个想法挺巧妙的:既然 PPO 能够稳定策略更新,那为什么不用类似的机制来稳定监督学习的参数更新呢?
2025年09月23日
参考了抖音上多位博主的观点,现在总结了一下人工智能学习的路线图,仅供大家参考。另外,我也会按照这个学习路线路学习人工智能相关知识,并分享到今日头条中。
语言:Python
2025年09月23日
想让智能体通过图像输入学会预测环境变化并做出智能决策?循环状态空间模型(RSSM)正是实现这一目标的核心技术,本文将带你深入理解并实战实现这一强大模型。
在现代人工智能领域,如何让智能系统从高维感官输入(如图像像素)中学习环境动态并进行有效规划,一直是一个核心挑战。循环状态空间模型(Recurrent State Space Model, RSSM)作为基于模型的强化学习中的关键技术,为解决这一问题提供了优雅而有效的方案。
2025年09月23日
机器之心发布
机器之心编辑部
清华和UC伯克利联合研究发现,在不进行任何算法或者网络架构变动的情况下,用 MAPPO(Multi-Agent PPO)在 3 个具有代表性的多智能体任务(Multi-Agent Particle World, StarCraftII, Hanabi)中取得了与 SOTA 算法相当的性能。
2025年09月23日
TMTPOST -- Apple has lost four high-profile artificial intelligence (AI) researchers in a development that highlights an ongoing trend: top talent in the AI sector is highly mobile, and high salaries alone aren’t the only reason engineers change companies.
2025年09月23日
Ray不仅仅是一个用于多处理的库,Ray的真正力量来自于RLlib和Tune库,它们利用了强化学习的这种能力。它使你能够将训练扩展到大型分布式服务器,或者利用并行化特性来更有效地使用你自己的笔记本电脑进行训练。
我们展示了如何使用Ray和RLlib在OpenAI Gym上构建一个自定义的强化学习环境。
一旦你用pip install ray[rllib]安装了Ray和RLlib,你就可以用命令行中的一个命令来训练你的第一个RL代理: