阿里巴巴開源首個圖像生成模型Qwen-Image

圖片來源:

Qwen

阿里巴巴旗下的AI團隊通義千問（Tongyi Qianwen，Qwen）繼開源Qwen語言模型、多模態模型Qwen-VL之後，周一（8/4）開源了首個圖像生成模型Qwen-Image。

Qwen-Image採用MMDiT（Masked Multimodal Diffusion Transformer）架構，具備200億個參數，支援使用者輸入文字或圖像以產生圖像，也能控制圖像的樣式，並針對於圖像中嵌入中文及英文進行了最佳化。

在Qwen-Image執行的許多圖像生成與圖像編輯基準測試中，它都輕易地超越了GPT Image 1、Seedream 3.0或Bagel等競爭對手，也在中/英文字渲染的基準測試表現亮眼。

Qwen團隊特別展示了如何以文字提示要求Qwen-Image生成含有大量文字的圖像，以展示該模型的確能夠根據提示生成正確的文字，不管是中文還是英文。

科技專欄作家Mehul Gupta認為，Qwen-Image是少數能夠準確對齊看板文字、正確渲染文字，同時兼顧風格與結構的開源圖像生成模型，而且具備商用品質，可比美封閉API。

使用者可直接透過Qwen Chat平臺試用Qwen-Image，或是藉由Hugging Face與GitHub下載。Qwen團隊亦提供了完整的Qwen-Image技術報告。

熱門新聞