9 月 17 日消息,騰訊混元今晚通過官方公眾號(hào)發(fā)文介紹,其生圖團(tuán)隊(duì)在 9 月 10 日發(fā)布了新研究 SRPO,主要提供文生圖模型的強(qiáng)化算法,解決開源文生圖模型 Flux 的皮膚質(zhì)感“過油”問題,讓人像真實(shí)感“提升 3 倍”。
根據(jù)介紹,該項(xiàng)目在發(fā)布后登上了 Hugging Face 熱度榜榜首,社區(qū)量化版本下載量達(dá) 25K,Github Star 超過了 700。
當(dāng)前,F(xiàn)lux 是開源文生圖社區(qū)中最廣泛使用的基礎(chǔ)模型。針對(duì) Flux.dev.1 模型生成的人物質(zhì)感“過油”的問題,SRPO(全稱為 Semantic Relative Preference Optimization,語義相對(duì)偏好優(yōu)化)的解決手段包括在線調(diào)整獎(jiǎng)勵(lì)偏好、優(yōu)化早期生成軌跡等。


官方揭秘了背后的技術(shù):騰訊混元團(tuán)隊(duì)聯(lián)合香港中文大學(xué)(深圳)和清華大學(xué)近日提出創(chuàng)新性解決方案:語義相對(duì)偏好優(yōu)化(Semantic Relative Preference Optimization)。該方法創(chuàng)新性地提出了另一條解決思路 —— 通過語義偏好實(shí)現(xiàn)獎(jiǎng)勵(lì)模型的在線調(diào)整。具體來說,SRPO 通過為獎(jiǎng)勵(lì)模型添加特定的控制提示詞(如“真實(shí)感”)來定向調(diào)整其優(yōu)化目標(biāo)。實(shí)驗(yàn)結(jié)果顯示,這些控制詞可以顯著增強(qiáng)獎(jiǎng)勵(lì)模型在真實(shí)度等特定維度的優(yōu)化能力。

進(jìn)一步,研究人員發(fā)現(xiàn),單純的語義引導(dǎo)仍存在獎(jiǎng)勵(lì)破解(rewardhacking)的風(fēng)險(xiǎn)。針對(duì)這一問題,團(tuán)隊(duì)提出創(chuàng)新的“語義相對(duì)偏好優(yōu)化”策略:同時(shí)使用正向詞和負(fù)向詞作為引導(dǎo)信號(hào),通過負(fù)向梯度有效中和獎(jiǎng)勵(lì)模型的一般性偏差,同時(shí)保留語義差異中的特定偏好。
研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)方法(如 ReFL,DRaFT)通常僅優(yōu)化生成軌跡的后半段,這種策略極易導(dǎo)致獎(jiǎng)勵(lì)模型在高頻信息上的過擬合問題。具體表現(xiàn)為:HPSv2 獎(jiǎng)勵(lì)模型會(huì)偏好偏紅色調(diào)的圖像,PickScore 傾向于紫色圖像,而 ImageReward 則容易對(duì)過曝區(qū)域給出較高評(píng)分。
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出 Direct-Align 策略,對(duì)輸入圖像進(jìn)行可控的噪聲注入,隨后通過單步推理,借助預(yù)先注入的噪聲作為“參考錨點(diǎn)”進(jìn)行圖像重建。這種方法顯著降低了重建誤差,實(shí)現(xiàn)更精準(zhǔn)的獎(jiǎng)勵(lì)信號(hào)傳導(dǎo)。從而支持對(duì)生成軌跡的前半段進(jìn)行優(yōu)化,解決過擬合問題。

根據(jù)介紹,SRPO 具有極高的訓(xùn)練效率,只需 10 分鐘訓(xùn)練即可全面超越 DanceGRPO 的效果。


SRPO 定量指標(biāo)達(dá) SOTA 水平,人類評(píng)估的真實(shí)度和美學(xué)優(yōu)秀率提升超過 3 倍,訓(xùn)練時(shí)間相比 DanceGRPO 降低 75 倍。


附上有關(guān)鏈接如下:
論文題目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
論文鏈接:https://arxiv.org/abs/2509.06942
項(xiàng)目主頁:https://tencent.github.io/srpo-project-page/
GitHub:https://github.com/Tencent-Hunyuan/SRPO
本文鏈接:http://m.www897cc.com/showinfo-45-27702-0.html給大模型生圖“去油”,騰訊混元新研究 SRPO 公布
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 強(qiáng)勁 AI 需求推動(dòng),今年四季度 NAND 與 DRAM 合約價(jià)預(yù)計(jì)大漲 15%-20%