醋醋百科网

Good Luck To You!

主流大模型精调方式的系统对比(模型调参是调节什么)

预训练后精调框架对比

方法

核心思想

数据需求

成本

典型应用场景

代表模型

Post-pretrain

领域增量预训练

大规模领域文本

极高

专业领域适应(医疗/法律)

Galactica

SFT

监督式指令微调

高质量标注对

中-高

基础能力对齐

LLaMA-2-Chat

RFT

基于反思的迭代优化

错误修正数据

复杂推理提升

ReSTEM

DPO

直接偏好优化(替代RLHF)

偏好排序数据

快速对齐

Zephyr-7B

KTO

Kahneman-Tversky优化理论驱动

二元反馈

极低

轻量级对齐

最新研究

RLHF

基于人类反馈的强化学习

多轮偏好标注

极高

安全对齐

ChatGPT

SimPO

相似性优先优化(无奖励模型)

正负样本对

小规模高效对齐

InternLM2

预训练:Post-pretrain

您可以基于大量的无标注纯文本数据定制行业或者领域大模型,并进一步SFT提升指令遵循能力。

监督微调:SFT

提供全量更新、LoRA的训练模式。通过有监督的方式精调模型,从而提升模型在特定任务上的指令遵循能力。


偏好对齐:RFT

RFT的核心是通过自动化生成的奖励信号驱动模型优化,让模型通过多轮试错和反馈逐步提升推理能力。

偏好对齐:DPO

基于成对的正负反馈数据,直接训练大模型,使其更符合人类偏好。

偏好对齐:KTO

根据用户正向或负向反馈进行模型训练,高效对齐用户行为偏好。

偏好对齐:RLHF-奖励模型

基于人类反馈的偏好排序数据训练奖励模型。

偏好对齐:RLHF-强化学习

通过最大化奖励来调优大模型,使得大模型与人类偏好对齐。

偏好对齐:SimPO

基于成对的正负反馈数据,简单高效的对齐偏好信息。

前沿进展

混合策略

  • SFT→DPO→RLHF 三阶段 pipeline(Claude 3)
  • RFT+SimPO 迭代优化(Google Gemini)

计算优化

  • MemFree-RLHF:显存占用降低70%
  • 1-bit RLHF:量化强化学习

理论突破

  • Distributional DPO:建模偏好不确定性
  • Meta-KTO:动态调整损失敏感系数

6. 生产环境建议

  • 快速上线:DPO(Zephyr方案)
  • 安全关键型:RLHF+安全过滤器(OpenAI范式)
  • 小团队低成本:SimPO+LoRA(仅需2块A100)
  • 领域专家模型:Post-pretrain → SFT → RFT

典型代码库推荐

  • TRL(HuggingFace RLHF全流程)
  • Alignment Handbook(DPO/KTO实现)
  • DeepSpeed-Chat(RLHF优化)
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言