快科技8月5日消息,今天凌晨,阿里通義千問宣布開源Qwen-Image,一個(gè)20B的MMDiT模型。
這是通義千問系列中首個(gè)圖像生成基礎(chǔ)模型,其在復(fù)雜文本渲染和精確圖像編輯方面取得顯著進(jìn)展。
據(jù)了解,該模型專注于提升AI在兩大核心場(chǎng)景的能力:復(fù)雜的文本渲染與精準(zhǔn)的圖像編輯。
功能亮點(diǎn):
強(qiáng)大的文字渲染能力(本次開源)
效果領(lǐng)先:在多個(gè)文本測(cè)評(píng)榜單中,文字渲染均獲得SOTA。
原生渲染:文字是圖像生成時(shí)直出的,而非后期添加,效果更真實(shí)。
功能全面:支持中英雙語,多變字體,超長(zhǎng)段落,超小文字,并可實(shí)現(xiàn)復(fù)雜的多位置圖文布局。
基礎(chǔ)扎實(shí):除了文字,模型在人物情緒、細(xì)節(jié)刻畫和多樣的風(fēng)格渲染上也同樣表現(xiàn)出色。
精準(zhǔn)的圖像編輯能力(即將發(fā)布)
效果穩(wěn)定:多個(gè)圖像編輯測(cè)評(píng)榜單SOTA。
鏈?zhǔn)骄庉嫞?/strong>在多輪連續(xù)修改后,仍能保持主體ID的一致性。
文字編輯:可以編輯圖像中的文字。
復(fù)雜編輯:可編輯人物姿勢(shì),提取圖像紋理等。

通義千問在多個(gè)公開基準(zhǔn)上對(duì)Qwen-Image進(jìn)行全面評(píng)估,包括用于通用圖像生成的GenEval、DPG和OneIG-Bench,以及用于圖像編輯的GEdit、ImgEdit和GSO。
Qwen-Image在所有基準(zhǔn)測(cè)試中均取得了先進(jìn)的性能,展現(xiàn)出其在圖像生成與圖像編輯方面的強(qiáng)大能力。






此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的結(jié)果表明,Qwen-Image在文本渲染方面表現(xiàn)尤為出色,特別是在中文文本渲染上,大幅領(lǐng)先現(xiàn)有的先進(jìn)模型。

除了文本處理,Qwen-Image在通用圖像生成方面也表現(xiàn)出色,支持多種藝術(shù)風(fēng)格。
在圖像編輯方面,Qwen-Image支持風(fēng)格遷移、增刪改、細(xì)節(jié)增強(qiáng)、文字編輯,人物姿態(tài)調(diào)整等多種操作,讓普通用戶也能輕松實(shí)現(xiàn)專業(yè)級(jí)圖像編輯。

本文鏈接:http://m.www897cc.com/showinfo-17-175593-0.html首個(gè)圖像生成基礎(chǔ)模型 阿里通義千問深夜開源Qwen-Image 支持中英雙語
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 官方提醒警惕AI“數(shù)據(jù)投毒” 0.01%虛假訓(xùn)練文本可致有害內(nèi)容增加11.2%