醋醋百科网

Good Luck To You!

每天拆解一个AI知识点:VAE(ai拆解图形)

[一] 什么是VAE 全称变分自编码器,是一种概率生成模型 简单来说,它能把复杂的数据压缩成简洁的表达,再还原回原样,甚至可以“凭空”生成全新的、合理的数据 你可以把它想象成一个聪明的“压缩-还原-创作”工具 例如:它可以把一张的图片压缩成一个低维表示,然后再根据这个表示还原出一张几乎一模一样的图。更酷的是,它还能生成一张从未见过的的图片 为什么叫“变分” VAE 使用了一种叫变分推理的方法,来近似输入数据的潜在分布 通俗解释:它不是去学习输入数据的一个“确定的表示”,而是学习一个能表示输入数据潜在特征的“分布” 后续内容均以图像 VAE 为例[二] VAE的网络结构主要由两个部分组成: Encoder 将输入图像压缩成潜空间分布 它的输出是一组参数:均值 μ 和 对数方差 logσ^2,表示一个正态分布,而不是一个确定的向量 每次会从这个分布中随机采样一个向量(即潜空间向量),作为后续 Decoder 的输入 正是这种“学习一个分布而非一个确定值”的机制,赋予了 VAE 强大的多样性和生成能力 编码器通常采用 CNN 结构 Decoder 对潜空间向量进行 Decode,将其还原为图像 Decoder 通常也采用 CNN 结构,但与编码器相反,其结构大致可以看作是编码器的“镜像”[三] 如何训练VAEVAE 是一种无监督学习模型 数据准备:只需大量图片,无需标签 损失函数由两部分组成: 重建误差:衡量输入图像与重建(还原)图像之间的差异(常用 MSE 或交叉熵,图像 VAE 一般使用 MSE) KL 散度:衡量编码器输出的分布与标准正态分布之间的差异 通俗理解: 既要让还原出的图像足够像原图 又要让潜空间分布尽量“规范”,以确保后续的随机采样与 Decoder 重建图像过程稳定、合理 训练流程: 输入图像 编码器输出均值和对数方差 表示一个正态分布 从分布中采样一个潜空间向量 Decoder 还原图像 计算损失 = 重建误差 + KL 散度 反向传播 更新网络参数 训练时使用了重参数化技巧,从而使“采样”这个随机过程也能参与反向传播#AI工具 #大模型 #扩散模型 #Stable_Diffusion #大厂 #人工智能 #机器学习
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言