在第四屆828 B2B企業(yè)節(jié)盛大開幕之際,華為云宣布了一項(xiàng)重大技術(shù)進(jìn)展:其Tokens服務(wù)已成功融入CloudMatrix384超節(jié)點(diǎn),借助創(chuàng)新的xDeepServe架構(gòu),實(shí)現(xiàn)了單芯片2400TPS的超高吞吐量和50ms的極低時(shí)延,這一性能表現(xiàn)遠(yuǎn)超當(dāng)前業(yè)界標(biāo)準(zhǔn)。
面對中國AI算力需求的急劇增長,華為云積極應(yīng)對挑戰(zhàn),推出了基于MaaS的Tokens服務(wù)。從最初按卡時(shí)計(jì)費(fèi)的模式,到如今提供包括在線版、進(jìn)線版、離線版及尊享版在內(nèi)的多樣化服務(wù)規(guī)格,這一轉(zhuǎn)變不僅滿足了不同應(yīng)用和場景的性能需求,更為AI工具如大模型和Agent智能體等提供了更為靈活、高效且成本友好的算力支持。
此次Tokens服務(wù)與CloudMatrix384超節(jié)點(diǎn)的結(jié)合,是華為云算力構(gòu)建策略的重要里程碑。通過384原生的xDeepServe框架,服務(wù)吞吐量實(shí)現(xiàn)了從年初的1920TPS到2400TPS的顯著提升,同時(shí)保持了極低的時(shí)延。這一成就得益于華為在硬件、軟件、算子、存儲、推理框架及超節(jié)點(diǎn)等各個層面的全棧創(chuàng)新能力。

CloudMatrix384超節(jié)點(diǎn)以其革新的計(jì)算架構(gòu),打破了性能瓶頸,為澎湃算力奠定了堅(jiān)實(shí)基礎(chǔ)。而CANN昇騰硬件使能則通過優(yōu)化算子和高效通信策略,確保云端算力得以最高效地調(diào)用和組合。EMS彈性內(nèi)存存儲技術(shù)更是突破了AI內(nèi)存墻,實(shí)現(xiàn)了“以存強(qiáng)算”,讓每顆芯片的算力得到徹底釋放。xDeepServe分布式推理框架則以其Transformerless的極致分離架構(gòu),進(jìn)一步提升了超節(jié)點(diǎn)的算力效率。
xDeepServe通過將MoE大模型拆分為可獨(dú)立伸縮的Attention、FFN、Expert微模塊,實(shí)現(xiàn)了在CloudMatrix384上的高效并行處理。這些微模塊被分配到不同的NPU上同步執(zhí)行任務(wù),并通過基于內(nèi)存語義的微秒級XCCL通信庫與FlowServe自研推理引擎重新組合,形成了一條超高吞吐量的LLM服務(wù)平臺,即Tokens的“超高速流水線”。
作為專為超節(jié)點(diǎn)上的大語言模型服務(wù)設(shè)計(jì)的高性能通信庫,XCCL充分發(fā)揮了CloudMatrix384擴(kuò)展后的UB互聯(lián)架構(gòu)潛力,為Transformerless的全面分離提供了堅(jiān)實(shí)的帶寬與時(shí)延基礎(chǔ)。而FlowServe作為被重構(gòu)的“去中心”式分布式引擎,則將CloudMatrix384劃分為完全自治的DP小組,每個小組都能自給自足,確保了即使千卡并發(fā)也不會出現(xiàn)擁堵現(xiàn)象。
華為云MaaS服務(wù)目前已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify等主流Agent平臺。通過積累的大量模型性能優(yōu)化和效果調(diào)優(yōu)技術(shù),華為云實(shí)現(xiàn)了“源于開源,高于開源”,讓更多大模型在昇騰云上展現(xiàn)出更快的運(yùn)行速度和更好的性能表現(xiàn)。以文生圖大模型為例,在輕微損失畫質(zhì)的情況下,通過Int8量化和旋轉(zhuǎn)位置編碼融合算子等方式,華為云MaaS平臺實(shí)現(xiàn)了出圖速度的兩倍提升,最大尺寸支持達(dá)到2K×2K。而在文生視頻大模型上,通過量化提速和通算并行等方式,視頻生成速度相較于友商實(shí)現(xiàn)了3.5倍的性能提升。
在應(yīng)用層面,華為云已與超過100家合作伙伴攜手,深入行業(yè)場景,共同構(gòu)建了豐富的Agent,廣泛應(yīng)用于調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運(yùn)維等領(lǐng)域,解決了眾多產(chǎn)業(yè)難題。例如,基于MaaS平臺推出的今日人才數(shù)智員工解決方案,集成了先進(jìn)的自然語言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),能夠智能交互并處理任務(wù),顯著提升了服務(wù)效率與客戶滿意度。而北京方寸無憂科技開發(fā)的無憂智慧公文解決方案,則有效提升了公文處理效能,推動了政企辦公的智能化轉(zhuǎn)型。
隨著以Token為動力的智能社會的到來,華為云憑借其系統(tǒng)級創(chuàng)新能力和全新的Tokens服務(wù),正構(gòu)筑起先進(jìn)算力,助力各行各業(yè)加速落地AI,推動智能化進(jìn)程。
本文鏈接:http://m.www897cc.com/showinfo-24-180128-0.html華為云Tokens服務(wù)接入384超節(jié)點(diǎn),算力突破至2400TPS引領(lǐng)AI創(chuàng)新
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com