9 月 19 日消息,小米今天宣布開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio,首次在語音領(lǐng)域?qū)崿F(xiàn)基于 ICL 的少樣本泛化。
據(jù)小米介紹,五年前 GPT-3 首次展示了通過自回歸語言模型 + 大規(guī)模無標注數(shù)據(jù)訓(xùn)練,獲得 In-Context Learning(ICL,上下文學(xué)習(xí))能力,而在語音領(lǐng)域,現(xiàn)有的大模型仍嚴重依賴大規(guī)模標注數(shù)據(jù),難以適應(yīng)新任務(wù)達到類人智能。
而 Xiaomi-MiMo-Audio 模型打破了這種瓶頸,它基于創(chuàng)新預(yù)訓(xùn)練架構(gòu)和上億小時訓(xùn)練數(shù)據(jù),在智商、情商、表現(xiàn)力與安全性在內(nèi)的跨模態(tài)對齊能力均有提升,在自然度、情感表達和交互適配方面呈現(xiàn)出擬人化水準。
這款模型的具體創(chuàng)新點如下:
首次證明把語音無損壓縮預(yù)訓(xùn)練 Scaling 至 1 億小時可以“涌現(xiàn)”出跨任務(wù)的泛化性,表現(xiàn)為 Few-Shot Learning 能力。

首個明確語音生成式預(yù)訓(xùn)練的目標和定義,并開源一套完整的語音預(yù)訓(xùn)練方案,包括無損壓縮的 Tokenizer、全新模型結(jié)構(gòu)、訓(xùn)練方法和評測體系。

目前小米已在 Huggingface 平臺開源了這款模型的預(yù)訓(xùn)練、指令微調(diào)模型,同時在 Github 平臺開源了 Tokenizer 模型,其參數(shù)量達 1.2B,基于 Transformer 架構(gòu),支持音頻重建任務(wù)和音頻轉(zhuǎn)文本任務(wù)。
本文鏈接:http://m.www897cc.com/showinfo-45-27926-0.html小米開源首個原生端到端語音大模型 Xiaomi-MiMo-Audio,對話自然度、交互適配達擬人化水準
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 上傳一張圖、主演任何視頻,“性能最強動作生成模型”阿里通義萬相 Wan2.2-Animate 開源
下一篇: 部分iPhone 17系列及iPhone Air用戶遇Wi-Fi斷連問題,N1芯片穩(wěn)定性引關(guān)注