每天拆解一个AI知识点:VAE（ai拆解图形）-技术文章-醋醋百科网

[一] 什么是VAE 全称变分自编码器，是一种概率生成模型简单来说，它能把复杂的数据压缩成简洁的表达，再还原回原样，甚至可以“凭空”生成全新的、合理的数据你可以把它想象成一个聪明的“压缩-还原-创作”工具例如：它可以把一张的图片压缩成一个低维表示，然后再根据这个表示还原出一张几乎一模一样的图。更酷的是，它还能生成一张从未见过的的图片为什么叫“变分” VAE 使用了一种叫变分推理的方法，来近似输入数据的潜在分布通俗解释：它不是去学习输入数据的一个“确定的表示”，而是学习一个能表示输入数据潜在特征的“分布” 后续内容均以图像 VAE 为例[二] VAE的网络结构主要由两个部分组成： Encoder 将输入图像压缩成潜空间分布它的输出是一组参数：均值 μ 和对数方差 logσ^2，表示一个正态分布，而不是一个确定的向量每次会从这个分布中随机采样一个向量（即潜空间向量），作为后续 Decoder 的输入正是这种“学习一个分布而非一个确定值”的机制，赋予了 VAE 强大的多样性和生成能力编码器通常采用 CNN 结构 Decoder 对潜空间向量进行 Decode，将其还原为图像 Decoder 通常也采用 CNN 结构，但与编码器相反，其结构大致可以看作是编码器的“镜像”[三] 如何训练VAEVAE 是一种无监督学习模型数据准备：只需大量图片，无需标签损失函数由两部分组成：重建误差：衡量输入图像与重建（还原）图像之间的差异（常用 MSE 或交叉熵，图像 VAE 一般使用 MSE） KL 散度：衡量编码器输出的分布与标准正态分布之间的差异通俗理解：既要让还原出的图像足够像原图又要让潜空间分布尽量“规范”，以确保后续的随机采样与 Decoder 重建图像过程稳定、合理训练流程：输入图像编码器输出均值和对数方差表示一个正态分布从分布中采样一个潜空间向量 Decoder 还原图像计算损失 = 重建误差 + KL 散度反向传播更新网络参数训练时使用了重参数化技巧，从而使“采样”这个随机过程也能参与反向传播#AI工具 #大模型 #扩散模型 #Stable_Diffusion #大厂 #人工智能 #机器学习

醋醋百科网

Good Luck To You!

每天拆解一个AI知识点:VAE（ai拆解图形）