Stability AI新模型採用對抗性擴散蒸餾技術，圖像生成更快品質更好

Stability AI改進自家著名的文字轉圖像模型釋出SDXL Turbo（Stable Diffusion XL Turbo），藉由應用創新的對抗性擴散蒸餾技術（Adversarial Diffusion Distillation，ADD），將需要的迭代步驟從50步減少到僅剩1步，單步驟就能生成高品質圖像。目前Stability AI將模型權重和程式碼公開在Hugging Face，供個人和非商業用途使用。

SDXL Turbo模型最大特點，就是能夠單步合成影像輸出，並在即時文字轉影像輸出上保持高採樣傳真度。而之所以SDXL Turbo能夠有別於過去的模型，主要原因在於使用了一種稱為對抗性擴散蒸餾技術，官方論文提到，這個方法能夠只經過1到4步驟高效採樣，達到高品質輸出圖像。

對抗性擴散蒸餾技術以現有的大型圖像擴散模型，作為教師訊號，並結合對抗性損失，確保即便在低步驟採樣中，也能維持高圖像傳真度。簡單來說，對抗性擴散蒸餾技術結合了蒸餾技術和對抗訓練，蒸餾技術可以精煉模型輸出，將大型模型知識濃縮到更小的模型中，而對抗性訓練則可以改進模型，以更好地模仿教師模型輸出。

過去的蒸餾技術很難達到高效率又高品質，因為快速採樣通常會降低輸出品質，因此對抗性擴散蒸餾技術在高效生成高品質圖像方面，是一個重要的進步。

官方評估SDXL Turbo的效能，將其與多個不同的模型變體進行，包括StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL。在這項評估中，人類評估者參與兩種實驗，第一個實驗是隨機查看兩個模型的輸出，並選擇出最符合提示詞的輸出圖像，第二項實驗則與第一項實驗執行方法相同，但人類評估者需選擇圖像品質較佳者。

實驗結果顯示，SDXL Turbo在運算需求大幅降低的同時，仍可以保持良好的圖像品質，單步SDXL Turbo勝過4步配置的LCM-XL，並且4步配置SDXL Turbo就可擊敗50步配置的SDXL。SDXL Turbo的推理速度非常快，在A100 GPU上，計算512*512解析度的圖像，只需要207毫秒。

熱門新聞