
圖片來源:
Qwen
阿里巴巴旗下的AI團隊通義千問(Tongyi Qianwen,Qwen)繼開源Qwen語言模型、多模態模型Qwen-VL之後,周一(8/4)開源了首個圖像生成模型Qwen-Image。
Qwen-Image採用MMDiT(Masked Multimodal Diffusion Transformer)架構,具備200億個參數,支援使用者輸入文字或圖像以產生圖像,也能控制圖像的樣式,並針對於圖像中嵌入中文及英文進行了最佳化。
在Qwen-Image執行的許多圖像生成與圖像編輯基準測試中,它都輕易地超越了GPT Image 1、Seedream 3.0或Bagel等競爭對手,也在中/英文字渲染的基準測試表現亮眼。
Qwen團隊特別展示了如何以文字提示要求Qwen-Image生成含有大量文字的圖像,以展示該模型的確能夠根據提示生成正確的文字,不管是中文還是英文。
科技專欄作家Mehul Gupta認為,Qwen-Image是少數能夠準確對齊看板文字、正確渲染文字,同時兼顧風格與結構的開源圖像生成模型,而且具備商用品質,可比美封閉API。
使用者可直接透過Qwen Chat平臺試用Qwen-Image,或是藉由Hugging Face與GitHub下載。Qwen團隊亦提供了完整的Qwen-Image技術報告。
熱門新聞
2026-01-06
2026-01-06
2026-01-05
2026-01-06
2026-01-02
2026-01-02
Advertisement