百度近日正式推出了其蒸汽機2.0大模型,這一創新技術標志著全球首個支持中文音視頻一體化生成的大模型的問世。蒸汽機2.0在原有圖像生成視頻的基礎上,新增了“有聲版”,實現了環境音效、人聲對白及嘴型同步的全方位支持,真正做到了畫面與聲音的同步生成。
該模型的最大亮點在于其“形神音容”一體化生成能力,將以往需要分別完成的視頻畫面、配音效與對白同步三個步驟,整合為一次生成完成,極大地提升了效率。這一突破性的技術革新,被形象地比喻為“三步并一步”。
在價格方面,蒸汽機2.0 Turbo有聲版的定價為每5秒1.4元,據百度透露,這一價格相較于行業平均成本,大約低了三成,顯示出其強大的競爭力。
從技術細節上看,蒸汽機2.0模型引入了更為復雜的鏡頭語言,如“繞鏡”等動態運鏡方式,同時配合大規模提示詞理解能力的升級,使得用戶即使輸入簡短的自然語言,也能生成畫面流暢、鏡頭調度自然的視頻內容。這一改進,無疑為用戶提供了更加便捷和高效的使用體驗。

在聲音方面,蒸汽機2.0模型不僅同步生成環境聲與人聲,還努力做到人物動作與唇形的精準匹配。該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態生成任務,背后由“多模態潛在空間規劃”機制支撐,能在建模階段統一規劃角色身份、語氣、對話內容與視覺呈現,確保生成的視頻內容整體感強、敘事一致。
百度還特別強調了蒸汽機2.0在中文場景下的適配能力,包括中文發音結構的唇形匹配、語境識別與本地化音色模擬,使得生成的中文視頻內容在語境下具備更高的擬真度。
在實際體驗中,蒸汽機2.0展現了其多樣化的生成能力。無論是沖浪者與巨浪共舞的震撼場景,還是海底世界美麗魚群的細膩描繪,蒸汽機2.0都能以逼真的畫面和流暢的動作呈現。同時,在創意簡單表達、極速生成的Lite版本中,雖然背景人物動作偶爾有些僵硬,但整體畫面氛圍和細節處理仍令人印象深刻。

在有聲版體驗中,蒸汽機2.0對于音效和對話的生成也展現出了不俗的實力。盡管在初次嘗試中,模型對于提示詞的理解存在些許偏差,但在調整提示詞后,模型能夠準確地還原角色的臺詞、音色和語氣,同時嘴型同步效果也十分清晰,聲音生成與畫面的銜接自然流暢。
百度蒸汽機2.0的推出,無疑為音視頻生成領域帶來了新的突破。雖然聲音生成的準確性和口型協調仍有待進一步提升,但其在“形神音容”一體化生成方向上邁出的這一步,無疑為未來的技術發展奠定了堅實的基礎。
舉報 0收藏 0打賞 0評論 0分享 0 更多>同類資訊科大訊飛2025上半年財報亮點:營收破百億,星火大模型技術再升級本報訊 (記者徐一鳴)8月21日晚間,科大訊飛股份有限公司(以下簡稱“科大訊飛”)發布2025年上半年業績報告。報告期內,公司營收首次突破百億元,達109.11億元,同比增長17.01%。此外,銷售回款首次突…08-22首批科創創業人工智能ETF上報,10家基金公司角逐市場新熱點證監會網站顯示,8月19至8月22日,首批科創創業人工智能ETF的上報數量已達10只,基金管理人分別為華泰柏瑞基金、易方達基金、華安基金、工銀瑞信基金、國聯安基金、富國基金、永贏基金、泰康基金、景順長城基金、…08-22
廣西人工智能產業投資基金成立,33億巨資助力科技創新08-22
高途上海新設心語智學,布局AI領域多項創新業務08-22OpenAI高層再變動,首席人才官離職,與Meta等科技巨頭人才爭奪愈演愈烈08-22專家質疑Google“五滴水”說法:AI環境影響評估或存漏洞08-22清華團隊發布GUAVA框架:0.1秒單照生成3D化身,引領3D技術革新潮流08-22谷歌Fitbit新升級:AI教練來襲,Gemini模型打造專屬健康伙伴08-22谷歌AI新突破:Gemini單次回答能耗低至微波爐一秒,引領綠色AI革命08-22OpenAI布局印度市場,新德里辦公室即將啟航08-22螞蟻集團與北醫三院聯袂,共筑AI醫療創新實驗室,開啟智能就醫新篇章08-22AWS首席執行官:AI無法輕易取代初級員工,重視人才培養是關鍵08-22OpenAI首席人力官Julia Villagra閃電離職,上任不足半年引關注08-22DeepSeek-V3.1發布:采用UE8M0 FP8精度,專為下一代國產芯片設計08-22谷歌Gemini大模型能耗揭秘:每次回答僅耗微波爐1秒電量08-22點擊查看更多 +全站最新
TCL科技蟬聯《財富》中國科技50強,以創新引領全球顯示技術新篇章
魅族22新機延期引熱議,高管坦言:追求完美致傷害品牌,9月中上旬發布
iPhone 17系列新爆料:TechWoven保護殼及配置詳情搶先看
梅西百貨攜手亞馬遜廣告,零售廣告領域將迎來怎樣變革?
中國超市百強榜出爐:行業洗牌加劇,盒馬領跑胖東來服務獲贊卻未進前十
Meta百億云約牽動AI戰局,云端巨頭新較量即將上演?熱門內容
百度蒸汽機2.0有聲版體驗:鐘馗開口,音畫同步效果初顯
廣西人工智能產業投資基金成立,33億巨資助力科技創新
高途上海新設心語智學,布局AI領域多項創新業務
vivo三十周年:發布輕便MR頭顯,影像生態戰略全面革新
霄云科技發布銀河存儲,專為AI場景打造,重塑企業級存儲性能標桿
中國移動安徽公司:信息技術引領低空經濟,打造城市運行新引擎
本文鏈接:http://m.www897cc.com/showinfo-45-26794-0.html百度蒸汽機2.0有聲版體驗:鐘馗開口,音畫同步效果初顯
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 酒店機器人:風光背后,盈利難題待解