何凯明新作|无矢量量化的自回归图像生成-技术文章-醋醋百科网

本文是何凯明大神的新作

论文题目

Autoregressive Image Generation without Vector Quantization

1、简介

传统观点认为，用于图像生成的自回归模型通常伴随着矢量量化标记。我们观察到，虽然离散值空间可以方便地表示分类分布，但它不是自回归建模的必要条件。在这项工作中，我们建议使用扩散过程对每个令牌概率分布进行建模，这使我们能够在连续值空间中应用自回归模型。而不是使用分类交叉熵损失，我们定义了一个扩散损失函数来模拟每个令牌的概率。这种方法消除了对离散值标记器的需要。我们在广泛的情况下评估其有效性，包括标准自回归模型和广义掩模自回归(MAR)变体。通过去除矢量量化，我们的图像生成器在享受序列建模的速度优势的同时，获得了较强的效果。我们希望这项工作将激励自回归生成在其他连续值领域和应用中的使用。

2、方法

1）作者图像生成方法是在标记化的潜在空间上操作的序列模型。但与之前基于矢量量化标记器的方法(例如，VQ-VAE的变体)不同，本文的目标是使用连续值标记器。提出了扩散损失，使序列模型与连续值令牌兼容。

2）论文没有一个整体框架图，但是和VQ-VAE的框架基本是一样的，只是不再使用离散向量，而是连续向量，下面是VQ-VAE的框图，本文的改进部分就是中间那块

3）首先是得到图片的特征向量，作者的想法是不离散，直接使用函数f进行编码后再使用扩散模型预测，有特征向量x1, ..., xi-1，使用f编码特征得到zi，公式化表述为zi = f(x1, ..., xi-1)，然后在zi上使用扩散模型生成xi，其中zi是作为条件输入扩散模型的，也就是说图像上任意一个或某几个向量特征通过编码后在扩散模型生成一个或某几个特征向量，其中f在论文中是transformer模型，扩散模型是3层卷积的小模型，这就是论文的核心思想

4）扩散模型还是预测噪声，其中zi是作为条件输入扩散模型的，也就是输入条件时t和zi，损失函数为

5）然后是函数f也就是transformer使用了双向自注意力机制，双向注意可以进行自回归。“自回归”(下一个令牌预测)的广义概念可以通过因果注意或双向注意来完成。(a)因果注意限制每个令牌只注意当前/以前的令牌。当输入偏移一个起始令牌[s]时，计算训练时所有令牌上的损失是有效的。(b)双向注意允许每个标记看到序列中的所有标记。根据MAE，在中间层中应用掩码令牌[m]，并添加位置嵌入。这种设置只计算未知令牌上的损失，但它允许整个序列的全部注意力功能，从而实现更好的令牌间通信。这种设置可以在推理时逐一生成令牌，这是自回归的一种形式。它还允许同时预测多个令牌。

6）另一个改进是输入f编码的向量是随机无序的，当然输入的无需向量需要加入位置编码，然后预测多个输出向量，(a)一个标准的，栅格阶自回归模型根据之前的标记预测下一个标记。(b)随机顺序自回归模型预测给定随机顺序的下一个标记。它的行为就像随机屏蔽符号，然后预测一个。(c) mask Autoregressive (MAR)模型在给定随机顺序的情况下同时预测多个令牌，这在概念上类似于mask生成模型。在所有情况下，一个步骤的预测都可以通过因果注意或双向注意来完成。

7）论文中的f编码，也就是zi = f(x1, ..., xi-1)这个过程执行了64次，随着输入的xi越来越多，预测的向量也越来越多，然后每个zi作为条件输入扩散模型去噪100次，一共要执行6400次？这速度真的快吗？

3、实验

1）随机向量输入和双向注意力都能显著提高效果

2）扩散模型参数的选择

3）扩散模型步数100

4）速度对比，只要0.3s

5)ImageNet的系统级比较256×256条件生成

6)可视化

醋醋百科网

Good Luck To You!

何凯明新作|无矢量量化的自回归图像生成