可靈AI近日通過官方公眾號正式宣布,其自主研發(fā)的全球首款統(tǒng)一多模態(tài)視頻生成模型——可靈視頻O1已面向全體用戶開放使用。這一突破性成果標(biāo)志著視頻生成領(lǐng)域進入全新階段,通過整合多模態(tài)交互能力,實現(xiàn)了從單一功能到綜合創(chuàng)作的跨越式升級。
據(jù)技術(shù)白皮書披露,該模型創(chuàng)新性采用生成式架構(gòu)底座,通過多模態(tài)視覺語言(MVL)交互框架,將圖像生成、視頻創(chuàng)作、文本理解等任務(wù)整合至統(tǒng)一輸入界面。用戶無需切換不同功能模塊,僅需在單一對話框中輸入混合指令,即可同步完成主體構(gòu)建、場景渲染與細(xì)節(jié)優(yōu)化。例如輸入"生成一位穿紅色漢服的女子在古風(fēng)庭院中彈奏古箏的視頻,要求鏡頭從全景推近至特寫",系統(tǒng)可自動解析多維度要求并生成連貫畫面。
核心技術(shù)創(chuàng)新方面,模型引入的思維鏈(Chain-of-thought)技術(shù)顯著提升了內(nèi)容邏輯性。通過模擬人類推理過程,系統(tǒng)能夠理解"雨天打傘"與"地面水漬"的因果關(guān)系,或"運動員起跑"與"觀眾反應(yīng)"的時間順序。官方測試數(shù)據(jù)顯示,在復(fù)雜場景的事件推演任務(wù)中,模型準(zhǔn)確率較前代提升67%,尤其在多主體交互場景中展現(xiàn)出更強的語義理解能力。
創(chuàng)作界面同步迎來重大升級,新版本支持通過自然語言對話調(diào)整畫面參數(shù)。用戶可實時修改"主體服飾顏色""背景光影效果"等200余項細(xì)節(jié),系統(tǒng)將自動生成多版本方案供選擇。針對專業(yè)創(chuàng)作者,平臺還開放了鏡頭運動控制、幀率調(diào)節(jié)等高級功能,滿足從短視頻創(chuàng)作到影視級制作的不同需求。
在主體一致性控制方面,模型通過三維空間建模技術(shù)實現(xiàn)了跨鏡頭穩(wěn)定表現(xiàn)。即使經(jīng)歷"從遠景到特寫"或"360度環(huán)繞拍攝"等極端視角變化,主體特征仍能保持高度一致。測試案例顯示,在連續(xù)200幀的復(fù)雜運鏡中,人物面部特征識別誤差率低于0.3%,衣物褶皺、配飾細(xì)節(jié)等微觀元素亦能精準(zhǔn)復(fù)現(xiàn)。該技術(shù)已應(yīng)用于影視預(yù)告片制作、虛擬偶像直播等多個商業(yè)化場景。
本文鏈接:http://m.www897cc.com/showinfo-21-185945-0.html快手可靈視頻O1模型全量登場:統(tǒng)一多模態(tài),開啟視頻創(chuàng)作新體驗
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com