當(dāng)前位置：首頁 > 元宇宙 > AI

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio，對話自然度、交互適配達擬人化水準

來源：責(zé)編：時間：2025-09-23 11:17:35 38觀看

導(dǎo)讀 9 月 19 日消息，小米今天宣布開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio，首次在語音領(lǐng)域?qū)崿F(xiàn)基于 ICL 的少樣本泛化。據(jù)小米介紹，五年前 GPT-3 首次展示了通過自回歸語言模型 + 大規(guī)模無標注數(shù)據(jù)訓(xùn)練，獲得

9 月 19 日消息，小米今天宣布開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio，首次在語音領(lǐng)域?qū)崿F(xiàn)基于 ICL 的少樣本泛化。

據(jù)小米介紹，五年前 GPT-3 首次展示了通過自回歸語言模型 + 大規(guī)模無標注數(shù)據(jù)訓(xùn)練，獲得 In-Context Learning（ICL，上下文學(xué)習(xí)）能力，而在語音領(lǐng)域，現(xiàn)有的大模型仍嚴重依賴大規(guī)模標注數(shù)據(jù)，難以適應(yīng)新任務(wù)達到類人智能。

而 Xiaomi-MiMo-Audio 模型打破了這種瓶頸，它基于創(chuàng)新預(yù)訓(xùn)練架構(gòu)和上億小時訓(xùn)練數(shù)據(jù)，在智商、情商、表現(xiàn)力與安全性在內(nèi)的跨模態(tài)對齊能力均有提升，在自然度、情感表達和交互適配方面呈現(xiàn)出擬人化水準。

這款模型的具體創(chuàng)新點如下：

首次證明把語音無損壓縮預(yù)訓(xùn)練 Scaling 至 1 億小時可以“涌現(xiàn)”出跨任務(wù)的泛化性，表現(xiàn)為 Few-Shot Learning 能力。

首個明確語音生成式預(yù)訓(xùn)練的目標和定義，并開源一套完整的語音預(yù)訓(xùn)練方案，包括無損壓縮的 Tokenizer、全新模型結(jié)構(gòu)、訓(xùn)練方法和評測體系。

目前小米已在 Huggingface 平臺開源了這款模型的預(yù)訓(xùn)練、指令微調(diào)模型，同時在 Github 平臺開源了 Tokenizer 模型，其參數(shù)量達 1.2B，基于 Transformer 架構(gòu)，支持音頻重建任務(wù)和音頻轉(zhuǎn)文本任務(wù)。

本文鏈接：http://m.www897cc.com/showinfo-45-27926-0.html小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio，對話自然度、交互適配達擬人化水準

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：上傳一張圖、主演任何視頻，“性能最強動作生成模型”阿里通義萬相 Wan2.2-Animate 開源

下一篇：部分iPhone 17系列及iPhone Air用戶遇Wi-Fi斷連問題，N1芯片穩(wěn)定性引關(guān)注

標簽：

熱門焦點

元宇宙將會如何塑造未來的工作方式？

科幻小說家尼爾·斯蒂芬森 (Neal Stephenson) 在1992年就創(chuàng)造了“元宇宙”一詞，但事實上，在Facebook將其更名為Meta以反映其將這一科幻愿景變?yōu)楝F(xiàn)實的戰(zhàn)略重點之
網(wǎng)易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發(fā)商米哈游宣布創(chuàng)立元宇宙品牌】《原神》開發(fā)商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務(wù)為全球玩家創(chuàng)造并提供沉浸式虛擬世界體
“元宇宙第一股”Roblox緣何被資本市場看“低”？

近期，冬奧會的召開受到廣泛關(guān)注，而吉祥物冰墩墩也成為新晉“頂流”，“一墩難求”成為普遍心聲，為了滿足大眾需求，nWayPlay平臺曾在2月12日發(fā)售了一款由國際奧委會官
2022年的Web3：定義概念并開創(chuàng)新范式

Web3 是關(guān)于加密和區(qū)塊鏈應(yīng)該如何使用的概念，因為它是加密圈的一個離散子領(lǐng)域。社區(qū)機會將呈指數(shù)級增長，擴大這些子行業(yè)的人口統(tǒng)計范圍。追求 Web3 項目的組織仍
Meta公布AI概念“Builder Bot”；銀保監(jiān)發(fā)布元宇宙相關(guān)風(fēng)險提示

概述自從Meta在2月初公布財報后，其負責(zé)元宇宙的核心部門Reality Labs表現(xiàn)不佳，凈虧損超100億美元，隨后股價斷崖式下跌。如今，Meta開始繼續(xù)發(fā)力元宇宙，想要挽回頹勢，
虛擬數(shù)字人：元宇宙的主角破圈而來

虛擬數(shù)字人市場逐步進入成熟期，商業(yè)化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級和成長四個階段。隨技術(shù)逐年突破，制
下一個黃金賽道？NFT的碎片化!

碎片化可能是我們一生中最重要的一個投資趨勢，碎片化本身并不新鮮。它已經(jīng)存在了400年之久。早在1602年，荷蘭東印度公司是歷史上第一家在公共證券交易所上市的公
又一家數(shù)字營銷公司入局元宇宙，國內(nèi)首個藝術(shù)元宇宙社區(qū)“Meta彼岸”上線

作者：董宇佳2月28日，智度股份在北京舉辦產(chǎn)品發(fā)布會，宣布其與國光電器聯(lián)手打造的國內(nèi)首個藝術(shù)元宇宙社區(qū)——“Meta彼岸”在VR端和移動端正式公測。從科技巨頭布局
元宇宙存在的意義和價值

科技公司目前都在猶豫，看誰能在元宇宙上押下更大的賭注。然而，除了巨額的資金投入，到底要怎樣才能獲勝在很大程度上還沒有得到證實。它是否僅僅是對當(dāng)前數(shù)字景觀

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio，對話自然度、交互適配達擬人化水準

元宇宙將會如何塑造未來的工作方式？

網(wǎng)易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

“元宇宙第一股”Roblox緣何被資本市場看“低”？

2022年的Web3：定義概念并開創(chuàng)新范式

Meta公布AI概念“Builder Bot”；銀保監(jiān)發(fā)布元宇宙相關(guān)風(fēng)險提示

虛擬數(shù)字人：元宇宙的主角破圈而來

下一個黃金賽道？NFT的碎片化!

又一家數(shù)字營銷公司入局元宇宙，國內(nèi)首個藝術(shù)元宇宙社區(qū)“Meta彼岸”上線

元宇宙存在的意義和價值

最新推薦

元宇宙終究沒火過兩年

這場虛擬人爭奪戰(zhàn)，互聯(lián)網(wǎng)巨頭下場先贏一半？

知識產(chǎn)權(quán)可能在元宇宙中“消失”？

新聞業(yè)在元宇宙的現(xiàn)狀和未來

利用元宇宙平臺10天收入160萬，風(fēng)口還是虎口？

初探元宇宙

猜你喜歡

熱門推薦

相關(guān)資訊

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio，對話自然度、交互適配達擬人化水準

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio，對話自然度、交互適配達擬人化水準