當直播時長逼近6個小時、大多數(shù)電商主播顯露疲態(tài)時,直播間里的主播仍然可以情緒飽滿地回答觀眾提問,時不時還能講兩句“段子”,吸引觀眾下單。
隨著人工智能技術快速發(fā)展,大模型向多模態(tài)加速演進,數(shù)字人成為融合大語言模型與多模態(tài)技術的創(chuàng)新應用,電商直播是數(shù)字人落地的極佳場景。數(shù)字人技術使商家無需投入大量人力、物力進行現(xiàn)場直播,能顯著降低場地租賃、設備采購、人員培訓等費用。同時,數(shù)字人可以24小時不間斷直播,進一步增加商品曝光時間和銷售機會,提升經濟效益。
但傳統(tǒng)數(shù)字人生成技術常面臨語音、語言、視覺多模態(tài)割裂的問題,表現(xiàn)為臺詞生硬、語音語調與臺詞情感匹配不佳、表情手勢單一等。百度首席技術官王海峰說,針對數(shù)字人應用痛點,百度創(chuàng)新研發(fā)了劇本驅動多模協(xié)同的高擬真數(shù)字人技術。
劇本的基礎是臺詞。臺詞生成不僅是內容輸出,還要貼合主播人設與語言風格,確保語言表達的個性化與一致性;在多主播場景中,還需實現(xiàn)語義邏輯、語調節(jié)奏和情感風格的整體協(xié)調。同時,為提升臺詞的內容深度,還要引入內容規(guī)劃、知識增強與事實校驗機制,以降低人工智能幻覺風險。基于臺詞,大模型可以直接生成一份數(shù)字人直播劇本。劇本自帶“視覺標簽”和“語音標簽”,它能夠告訴系統(tǒng),對應臺詞人物要做出哪些動作。
互動性強是電商直播場景的一大特點。在與觀眾互動過程中,語音合成的自然度是決定用戶沉浸感的關鍵因素。觀眾希望聽到主播有情緒、有起伏的聲音,而不是生硬機械的朗讀。王海峰介紹,針對這一需求,百度提出了“文本自控的語音合成”方案。文本自控的語音合成大模型不僅具備高復原的語音合成能力,還能夠結合直播臺詞及主播個人特征,把這些文本內容轉化為自然、有感染力的聲音,讓數(shù)字人不僅能發(fā)出聲音,更能精準傳遞出調侃、得意、強調等細微情緒。
除了要和用戶交互,數(shù)字人主播在直播時還要與商品和所在空間進行符合物理邏輯的互動。如何做到這一點?高一致性超擬真數(shù)字人長視頻生成技術,能對輸入的歷史視頻數(shù)據(jù)、劇本腳本、語音信息以及骨骼驅動等多模態(tài)信號進行分析與理解,并基于此分別生成高表現(xiàn)力片段、復雜“人—物—場”交互片段以及大動作大表情片段。系統(tǒng)能夠對這些片段在較長時間跨度上進行統(tǒng)一調度,確保語音、口型、表情與動作始終保持高度一致且同步。
如今,數(shù)字人正逐漸從實驗室走向各類應用場景,商業(yè)化進程顯著加快。可以預見,隨著深度思考、多模態(tài)交互等關鍵能力的躍升,還將有越來越多數(shù)字人出現(xiàn)在屏幕上,走進人們的生活中。同時,業(yè)內專家提醒,《直播電商監(jiān)督管理辦法(征求意見稿)》提出,使用人工智能等技術生成的人物圖像、視頻從事直播營銷活動的,直播間運營者應當在直播頁面進行顯著標識,持續(xù)向消費者提示該人物圖像、視頻屬于人工智能等技術生成,以與自然人名義或者形象進行明顯區(qū)分。
中國科學院信息工程研究所正高級工程師韓冀中說,人們在擁抱數(shù)字人技術的同時,也需設立清晰的邊界,必須防止利用高擬真技術以假亂真進行欺詐或虛假宣傳。技術的發(fā)展必須與法律、倫理的約束并行,確保創(chuàng)新在正確的軌道上行穩(wěn)致遠。(記者 都 芃)
本文鏈接:http://m.www897cc.com/showinfo-16-186241-0.html高擬真數(shù)字人直播帶貨有多強
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com