Arm UNLOCKED 峰會(huì)在上海召開(kāi)。 Arm在此次峰會(huì)上正式發(fā)布了面向移動(dòng)端的 Arm Lumex 計(jì)算子系統(tǒng)(Compute Subsystem, CSS) ,包括了全新的基于Armv9.3指令集的C1系列CPU集群,以及支持新一代光線(xiàn)追蹤技術(shù)的Mali G1 GPU系列。
其中,C1 CPU集群均支持可擴(kuò)展矩陣延伸指令集 SME2 ,極大地提升了CPU對(duì)于AI 和 ML 工作負(fù)載的支持。

一、全新Armv9.3,加入對(duì)SME2支持
雖然對(duì)于目前的很多AI負(fù)載來(lái)說(shuō),利用GPU、NPU等計(jì)算單元來(lái)進(jìn)行計(jì)算,可以擁有比CPU更高的計(jì)算效率。但是對(duì)于CPU廠(chǎng)商來(lái)說(shuō),也在不斷通過(guò)融入一些新的指令集來(lái)提升CPU的AI計(jì)算能力。
過(guò)去多年來(lái),Arm 也一直致力于提升的CPU的AI能力,比如在 Armv7 架構(gòu)中引入了高級(jí)單指令多數(shù)據(jù) (SIMD,也稱(chēng)Arm Neon 指令) 擴(kuò)展,探索了機(jī)器學(xué)習(xí) (ML) 工作負(fù)載;Armv8.4-A 支持 8 位整數(shù)點(diǎn)積指令;Armv8.6-A 支持各種數(shù)據(jù)類(lèi)型的矢量?jī)?nèi)整數(shù)和浮點(diǎn)矩陣乘法指令。

進(jìn)入到 Armv9 架構(gòu),Arm在 CPU 上集成了用于加速和保護(hù)如大語(yǔ)言模型 (LLM) 等先進(jìn)的生成式 AI 工作負(fù)載的特性。
比如,Armv9-A 加入了可伸縮矢量擴(kuò)展 2 (SVE2),用于數(shù)字信號(hào)處理器 (DSP)、媒體和通用矢量化;Armv9.2-A 則首次引入了可伸縮矩陣擴(kuò)展 (SME)指令,可加速 AI 和 ML 工作負(fù)載,并為 Arm CPU 上運(yùn)行的 AI 和 ML 應(yīng)用提供更高的性能、能效和靈活性。

全新的Armv9.3則加入了對(duì)于SME2的支持,即在 SME 的基礎(chǔ)上增加了多矢量指令,允許在矩陣和矢量運(yùn)算中復(fù)用架構(gòu)狀態(tài) (ZA Array),并具有更高吞吐量的矢量處理能力。
這有助于通過(guò)壓縮 AI 格式來(lái)減少內(nèi)存帶寬并節(jié)省功耗,從而實(shí)現(xiàn)矢量和矩陣加速的平衡。
SME2 還能夠靈活地動(dòng)態(tài)去量化,并解壓縮 2 位和 4 位權(quán)重,以節(jié)省內(nèi)存帶寬。在生成式 AI 工作負(fù)載日益復(fù)雜和耗電加劇的背景下,這些特性非常重要,同時(shí)也彰顯了 Arm 致力于應(yīng)對(duì) AI 無(wú)止盡的能源需求。
二、面向 AI 高性能 Arm C1 CPU 集群
Arm全新的 C1 CPU 集群是 Arm Lumex CSS 平臺(tái)的組件之一,也是首個(gè)基于 Armv9.3 架構(gòu)的CPU 系列產(chǎn)品。
高性能的 Arm C1 CPU 集群集成了新的 C1-Ultra CPU,以及可靈活組合的C1-Premium、C1-Pro 與 C1-Nano CPU 核心,能夠根據(jù)合作伙伴的特定需求,實(shí)現(xiàn)性能和能效提升。
同時(shí),C1 CPU 通過(guò) Armv9 架構(gòu)直接內(nèi)建第二代 Arm 可伸縮矩陣擴(kuò)展 (SME2),這為加速 AI 體驗(yàn)帶來(lái)了革新突破。

1、 C1-Ultra:強(qiáng)超大核
具體來(lái)說(shuō),C1-Ultra作為的C1 CPU系列當(dāng)中性能強(qiáng)的超大核。
它帶來(lái)了業(yè)界領(lǐng)先的前端設(shè)計(jì),并針對(duì)實(shí)際工作負(fù)載進(jìn)行優(yōu)化;擁有業(yè)內(nèi)寬、吞吐量高的微架構(gòu);擁有出色的預(yù)取器,可在面積限制內(nèi)優(yōu)化性能。
這些特性使得C1-Ultra 的 IPC 進(jìn)一步提升了12%,相比Cortex-X1的IPC提升了超過(guò)75%,使得C1-Ultra內(nèi)核的性能表現(xiàn)比Cortex-X925高出約26%。

從Geekbench 6.3的測(cè)試數(shù)據(jù)來(lái)看,在同等性能水平下,C1-Ultra的能耗比Cortex-X925低了28%,而如果從高的單線(xiàn)程性能來(lái)看,C1-Ultra確實(shí)要比Cortex-X925高出25%左右。

2、C1-Premium:高PPA
C1-Premium是 Arm 首款次旗艦處理器CPU,追求高的PAA(性能、功耗、面積)。
據(jù)Arm介紹,C1-Premium核心面積比包含私有 L2 緩存的 C1-Ultra 核心縮小了 35%。該 CPU 在 SPEC 套件等基準(zhǔn)測(cè)試中以更小的占用面積,保持了同等的性能水平,實(shí)現(xiàn)了卓越的面積效率。

得益于極高的PPA,這也使得C1-Premium可具有可靈活組合性,可以為新細(xì)分市場(chǎng)提供卓越性能。
比如,原本2個(gè)C1-Ultra + 6個(gè)C1-Pro的CPU,如果將超大核換成2個(gè)C1-Premium ,整體面積可以減少35%;同樣,如果原本4個(gè)C1-Pro + 4個(gè)
C1-Nano的CPU,升級(jí)成2個(gè)C1-Premium + 6個(gè)C1-Pro的CPU,在面積不會(huì)增加多少的情況下,性能可以迅速提升35%。

不過(guò),Arm并未提供更多關(guān)于C1-Premium本身性能上的數(shù)據(jù)。
3、C1-Pro:高能效大核
C1-Pro的定位是高能效的大核。在微架構(gòu)層面,Arm C1-Pro 引入了增強(qiáng)型分支預(yù)測(cè)和內(nèi)存系統(tǒng)更新,尤其適用于實(shí)際用例中的多任務(wù)處理。
從Geekbench 6.3測(cè)試表現(xiàn)來(lái)看,在同等性能下,C1-Pro的功耗要比Cortex-A725低26%;在同等功耗下,C1-Pro的性能要比Cortex-A725高出11%。

在相關(guān)應(yīng)用測(cè)試中,與Cortex-A725相比,C1-Pro CPU在相同主頻下,性能高提升了16%;在相同性能下,功耗降低了12%。

值得一提的是,C1-Pro 還具有面積優(yōu)化的配置方案,可以幫助客戶(hù)輕松地遷移到新的Armv9.3,無(wú)需犧牲任何面積,并且保留關(guān)鍵的微架構(gòu)優(yōu)勢(shì),并支持SME2。

4、C1-Nano:高能效小核
C1-Nano 在小面積占用的條件下,將 Arm C1 系列 CPU 的優(yōu)勢(shì)集于一體。相比此前的Cortex-A520小核,C1-Nano電源效率大幅提高,在同一工藝下,與 Cortex-A520 相比,電源效率提高 26%了;減少 L3/DRAM 交互,實(shí)現(xiàn)了小面積和高區(qū)域效率。與 Cortex-A520 相比,SPECint2017 性能提高 5.5%,核心面積提高 2%;改進(jìn)了指令獲取,解耦預(yù)測(cè)/獲取流水線(xiàn)在獲取工作負(fù)載方面提高了10%以上的性能。

C1-Nano出色的高能效和低功耗表現(xiàn),使其成為可穿戴設(shè)備和緊湊型消費(fèi)類(lèi)電子設(shè)備的理想之選。
5、C1-DSU
DSU(DynamIQ Shared Unit)是Arm CPU集群架構(gòu)中的一個(gè)關(guān)鍵組件,用于管理多核處理器的核心,優(yōu)化性能和能效。對(duì)于全新的C1 CPU集群,Arm也帶來(lái)了全新的C1-DSU,也加入了對(duì)于SME2的支持。
據(jù)Arm介紹,與DSU-120相比,C1-DSU典型功耗降低了11%,快速喚醒 RAM 功耗降低了7%。

6、Arm C1 CPU 集群可滿(mǎn)足各類(lèi)端側(cè)應(yīng)用
C1系列的四款CPU內(nèi)核,也為Arm C1 CPU集群的組合帶來(lái)了非常多的選擇。
如果拿低端的2個(gè)C1-Nano(基于不支持SME2的DSU)與高端的2個(gè)C1-Ultra + 6個(gè)C1-Pro(基于支持SEM2的DSU)對(duì)比,后者的性能達(dá)到了前者的17倍,不過(guò)面積也達(dá)到前者的25倍。足見(jiàn)性能、面積跨度之大,還可擴(kuò)展至各個(gè)級(jí)別的消費(fèi)類(lèi)電子和移動(dòng)設(shè)備,為多樣化的端側(cè)工作負(fù)載提供不同水平的性能、功耗和面積效率。

Arm C1 CPU 集群在實(shí)際用例中表現(xiàn)突出。在行業(yè)領(lǐng)先的性能基準(zhǔn)測(cè)試,該 CPU 集群在同等條件下,相較于上一代 CPU 集群性能平均提升 30%,在游戲和視頻流媒體等應(yīng)用中平均提速 15%。與此同時(shí),在日常移動(dòng)端工作負(fù)載(如視頻播放、社交媒體、網(wǎng)頁(yè)瀏覽)中,該 CPU 集群在同等條件下,相較于上一代 CPU 集群功耗平均降低 12%。

在Arm看來(lái),下一代主流的智能手機(jī)的CPU集群可能將會(huì)是支持SME2的C1集群,比如C1-Pro + C1-Nano這樣的組合,預(yù)計(jì)相比當(dāng)前的Cortex-A725+Cortex-A520的組合,可以帶來(lái)11%的性能提升和2倍的AI性能密度。

6、SEM2加持下的AI性能提升
得益于 SME2 內(nèi)置的矩陣擴(kuò)展,Arm C1 CPU 能夠加速 AI 功能,包括涉及大量矩陣運(yùn)算的大語(yǔ)言模型 (LLM)、媒體處理(圖像與視頻)、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、實(shí)時(shí)應(yīng)用(AI 助手、計(jì)算攝影與 AI 濾鏡)以及多模態(tài)應(yīng)用等。
SME2 是在 SME 基礎(chǔ)上進(jìn)行了全新的智能升級(jí),能提升性能、降低內(nèi)存占用,并使端側(cè) AI 運(yùn)行得更為流暢,尤其是在音頻生成、攝像頭推理、計(jì)算機(jī)視覺(jué)及即時(shí)聊天等高實(shí)時(shí)性要求的應(yīng)用中。
據(jù)Arm介紹,針對(duì)生成式 AI、語(yǔ)音識(shí)別、典型的機(jī)器學(xué)習(xí) (ML) 和計(jì)算機(jī)視覺(jué) (CV) 等工作負(fù)載,啟用 SME2 的 Arm C1 CPU 集群在同等條件下,能比上一代 CPU 集群帶來(lái)5倍 AI 性能提速。
此外,借助 SME2,該C1 CPU 集群可實(shí)現(xiàn)多達(dá)3倍的能效優(yōu)化。而上述的 AI 性能和能效改進(jìn)能為用戶(hù)帶來(lái)更流暢、響應(yīng)更迅速的端側(cè)體驗(yàn)。

Arm表示,SME2 顯著縮小了C1 CPU與GPU之間的AI性能差距,特別是在小型AI工作負(fù)載上,CPU 現(xiàn)已超越 GPU,并且保留了CPU的靈活性。
從Arm公布的測(cè)試數(shù)據(jù)來(lái)看,在沒(méi)有SME2 的支持下,C1-Pro CPU的AI性能與Arm新的Mali G1 GPU的AI性能差距巨大。
但是,有了SME2加持的C1-Pro CPU,AI性能大幅提升,特別是在運(yùn)行一些小的神經(jīng)網(wǎng)絡(luò)時(shí),其性能表現(xiàn)甚至比Arm新的Mali G1 GPU表現(xiàn)更好。

SME2 還可加速各種圖像處理工作負(fù)載,比如在libyuv中,支持SME2的C1-Pro的圖像處理表現(xiàn)提升到了原來(lái)的3倍。

對(duì)于 Arm 合作伙伴和開(kāi)發(fā)者生態(tài)系統(tǒng)而言,相較于未啟用 SME2 特性的硬件,這些提升能顯著加速不同工作負(fù)載和用例中的 AI 性能,包括:
在 Whisper Base 上處理語(yǔ)音工作負(fù)載時(shí),延遲降低 4.7 倍;在 Google Gemma 3 模型上進(jìn)行聊天交互,AI 性能增長(zhǎng) 4.7 倍;在 Stability AI Stable Audio 模型上生成音頻,速度提升 2.8 倍。

三、Mali G1-Ultra 重新定義游戲與 AI 體驗(yàn)
手機(jī)的游戲性能一直以來(lái)都是廠(chǎng)商和用戶(hù)極為關(guān)心的一大關(guān)鍵能力。根據(jù)新的 Newzoo 報(bào)告,手游玩家占據(jù)了高達(dá) 83% 的全球游戲玩家人口,其手游總時(shí)長(zhǎng)達(dá)到 3,900 億小時(shí)。
Arm作為移動(dòng)計(jì)算平臺(tái)的霸主,其也一直致力于利用自身的GPU來(lái)提升手機(jī)游戲體驗(yàn)。數(shù)據(jù)顯示,截至目前,搭載 Arm GPU 的芯片出貨量已逾 120 億顆。
此次,Arm全新推出的Mali G1-Ultra是專(zhuān)為新一代手游和 AI 體驗(yàn)打造的GPU,基于 Arm 第五代 GPU 架構(gòu)。引入多項(xiàng)核心級(jí)改進(jìn),旨在移動(dòng)設(shè)備上實(shí)現(xiàn)高端沉浸式游戲體驗(yàn)。
與上一代的Immortalis-G925 GPU相比,Mali G1-Ultra還帶來(lái)了新一代 Arm 光線(xiàn)追蹤單元 RTUv2,使得光線(xiàn)追蹤性能達(dá)到了前一代的兩倍;借助 IRD、tiler 改進(jìn)、IDVS/計(jì)算調(diào)度,2倍快速訪(fǎng)問(wèn)統(tǒng)一內(nèi)存,使得Mali G1-Ultra在主流圖形基準(zhǔn)測(cè)試中,性能表現(xiàn)提升了20%;通過(guò)優(yōu)化計(jì)算和新的 MMUL.FP16 指令,使得AI性能也提升了20%;每幀生成的功耗也降低了9%。

除了面向旗艦智能手機(jī)的 Mali G1-Ultra,Arm 還推出 Arm Mali G1-Premium 和 Mali G1-Pro GPU,旨在提供可擴(kuò)展的性能和能效選擇,以滿(mǎn)足不同移動(dòng)設(shè)備市場(chǎng)和產(chǎn)品層級(jí)的需求。Mali G1 GPU 系列提供從 1 到 24 個(gè)著色器核心選項(xiàng),使系統(tǒng)級(jí)芯片 (SoC) 設(shè)計(jì)商能夠根據(jù)其目標(biāo)市場(chǎng)和特定需求,靈活配置 GPU。
1、新一代光線(xiàn)追蹤單元RTUv2
得益于 Mali G1-Ultra 中的光線(xiàn)追蹤單元RTUv2,在啟用硬件光線(xiàn)追蹤的游戲中,光線(xiàn)追蹤性能可提升兩倍,幀率可提升 40%。新的光線(xiàn)追蹤單元專(zhuān)為移動(dòng)端的實(shí)時(shí)性能而打造,實(shí)現(xiàn)了桌面級(jí)的光照、反射與陰影。

與前一代 RTUv1 相比,RTUv2 更加智能,且采用單光線(xiàn)模型,大幅增強(qiáng)對(duì)非一致性光線(xiàn)的支持,并成為完全獨(dú)立的硬件單元。這些設(shè)計(jì)變化帶來(lái)了顯著的能效與性能優(yōu)勢(shì)。例如,其模塊化架構(gòu)與獨(dú)立電源域使得 RTUv2 可在設(shè)備空閑時(shí)斷電,從而為其他任務(wù)節(jié)省電力。
鑒于通過(guò) RTUv2 實(shí)現(xiàn)的性能與能效平衡的優(yōu)勢(shì),Mali G1-Ultra 能在旗艦智能手機(jī)上實(shí)現(xiàn)長(zhǎng)時(shí)間的游戲體驗(yàn),使其成為旗艦智能手機(jī)的理想配置。
2、端側(cè)實(shí)時(shí)智能加速
AI 正在重塑移動(dòng)設(shè)備思考、感知與響應(yīng)的方式,而 GPU 在這一演進(jìn)歷程中扮演著關(guān)鍵角色。Mali G1-Ultra 引入新的矩陣乘法單元 (MMUL) FP16 指令,可加速如語(yǔ)義分割、去噪、深度估計(jì)、物體檢測(cè)、語(yǔ)音識(shí)別和圖像增強(qiáng)等端側(cè)關(guān)鍵 AI 工作負(fù)載。在FP32 ML網(wǎng)絡(luò)中,Mali G1-Ultra與上一代 Immortalis-G925(同樣均為14核心)相比,其性能提升高達(dá) 104%。

通過(guò)擴(kuò)大的 L2 緩存和優(yōu)化的互連設(shè)計(jì),Mali G1-Ultra 專(zhuān)為并行處理 AI 與圖形工作負(fù)載而打造,大幅減少內(nèi)存瓶頸,并確保實(shí)時(shí)體驗(yàn)的靈敏響應(yīng)與流暢運(yùn)行。無(wú)論是增強(qiáng)照片質(zhì)量,還是支持更智能的應(yīng)用交互,Mali G1-Ultra 都在邊緣側(cè)實(shí)現(xiàn)響應(yīng)靈敏的實(shí)時(shí)智能。
3、可擴(kuò)展性能的新架構(gòu)特性
據(jù)介紹,Mali G1-Ultra帶來(lái)了雙堆疊著色器核心,可使內(nèi)部帶寬加倍并減少擁塞;增加快速訪(fǎng)問(wèn)統(tǒng)一寄存器,以在著色器執(zhí)行期間大幅減少內(nèi)存提取。這些更新共同提升了包括實(shí)時(shí)光照和基于物理的渲染在內(nèi)的響應(yīng)效果(這些特效通常屬于計(jì)算密集型工作負(fù)載)。
此外,Mali G1-Ultra 還引入 Arm 圖像區(qū)域依賴(lài) (Image Region Dependencies, IRD),這是一種更智能的調(diào)度特性,使 GPU 能同時(shí)處理屏幕的不同部分,從而在復(fù)雜場(chǎng)景中提升性能并減少空閑時(shí)間。
4、為開(kāi)發(fā)者量身打造
為幫助開(kāi)發(fā)者實(shí)現(xiàn)更精細(xì)的性能優(yōu)化,Mali G1 GPU 通過(guò)基于塊 (tile) 的硬件計(jì)數(shù)器,提供更強(qiáng)的可觀測(cè)性。這些計(jì)數(shù)器能逐幀按區(qū)域洞察 GPU 活動(dòng),讓開(kāi)發(fā)者可以更高效地識(shí)別熱點(diǎn),并平衡工作負(fù)載。
這些計(jì)數(shù)器可通過(guò) Vulkan 擴(kuò)展訪(fǎng)問(wèn),并將在未來(lái)的安卓版本中支持 RenderDoc。這讓游戲引擎公司、游戲工作室和設(shè)備 OEM 廠(chǎng)商能夠更為輕松地從該架構(gòu)中獲得大性能,同時(shí)保持視覺(jué)質(zhì)量和電池效率。
Mali G1 GPU 還支持 Arm 精銳超級(jí)分辨率技術(shù) (Arm Accuracy Super Resolution, Arm ASR),這項(xiàng)時(shí)域類(lèi)超分技術(shù)可在減少 GPU 工作負(fù)載的同時(shí),提升圖像質(zhì)量。該技術(shù)通過(guò)虛幻引擎 5 (Unreal Engine 5) 提供,并已集成至《堡壘之夜》手游。Arm ASR 能幫助開(kāi)發(fā)者在不犧牲視覺(jué)保真度的情況下,保持高幀率,從而在各種移動(dòng)設(shè)備上實(shí)現(xiàn)更流暢的游戲體驗(yàn)與更清晰的細(xì)節(jié)效果。
四、Arm Lumex CSS 平臺(tái)
在2024年5月,Arm就推出了面向客戶(hù)端的計(jì)算子系統(tǒng)(CSS for Client),整合了當(dāng)時(shí)新的 Armv9.2 指令集的 CPU 集群,包括Cortex-X925 CPU、Cortex-A725 CPU、更新后的Cortex-A520 CPU,以及Immortalis-G925 GPU等IP。
此次Arm新的發(fā)布的Arm Lumex CSS 平臺(tái)是專(zhuān)門(mén)面向旗艦智能手機(jī)和大屏計(jì)算設(shè)備的計(jì)算子系統(tǒng),不僅整合了前面介紹的Arm C1 CPU集群、Mali G1-Ultra GPU、C1-DSU,還帶來(lái)了Arm SI L1 系統(tǒng)互連與 Arm MMU L1 系統(tǒng)內(nèi)存管理單元等IP。

1、面向AI優(yōu)先SoC平臺(tái)的系統(tǒng)IP
Lumex CSS平臺(tái)要支持 AI 優(yōu)先體驗(yàn),自然不能只局限于CPU、GPU等計(jì)算 IP 和前面提到的多核調(diào)度的DSU IP的提升,還必須在整個(gè)互連和內(nèi)存架構(gòu)層面持續(xù)演進(jìn)。
所以,Arm為了Lumex CSS平臺(tái)帶來(lái)了全新的SI L1和MMU L1和NoC S3等系統(tǒng)IP,專(zhuān)為滿(mǎn)足高要求 AI 和其他計(jì)算密集型工作負(fù)載的帶寬與延遲需求而優(yōu)化。

具體來(lái)說(shuō),新的SI L1系統(tǒng)互連適用于需要硬件管理一致性、SLC和高級(jí)QoS的數(shù)據(jù)共享的高性能設(shè)計(jì)。其配備了業(yè)內(nèi)先進(jìn)的,且具有出色面積效率的系統(tǒng)級(jí)緩存 (SLC) ,相比標(biāo)準(zhǔn)編譯的 RAM,其泄漏功耗降低了 71%,大幅減少了待機(jī)功耗。
SI L1 系統(tǒng)互連面向旗艦移動(dòng)設(shè)備,具備完全集成的可選 SLC 并支持 Arm 內(nèi)存標(biāo)記擴(kuò)展 (Memory Tagging Extension, MTE) 特性,可提供一流的安全性。
而MMU L1則是新一代面向移動(dòng)優(yōu)化的內(nèi)存管理單元(Memory Management Unit,MMU),通過(guò)PPA優(yōu)化提高系統(tǒng)MMU的可負(fù)擔(dān)性和可擴(kuò)展的安全基礎(chǔ),可以為Android和Windows設(shè)備實(shí)現(xiàn)基于內(nèi)存轉(zhuǎn)換的安全、經(jīng)濟(jì)、高效的可擴(kuò)展虛擬化。
據(jù)Arm披露的數(shù)據(jù)顯示,SI L1 系統(tǒng)互連相比上代的CI-7000,互聯(lián)延遲降低了75%;MMU L1相比上代的MMU-700多可將TBU延遲降低83%。

NoC S3 片上網(wǎng)絡(luò)互連則面向注重成本且非一致性的移動(dòng)系統(tǒng)。
2、解鎖3nm物理實(shí)現(xiàn)
據(jù)Arm介紹,Lumex CSS提供針對(duì)3nm工藝優(yōu)化、生產(chǎn)就緒的 CPU 和 GPU 實(shí)現(xiàn),已為多家晶圓代工廠(chǎng)所支持。

如此一來(lái),Arm 的芯片合作伙伴和 OEM 廠(chǎng)商能夠:將這些實(shí)現(xiàn)作為靈活的構(gòu)建模塊,以便專(zhuān)注于 CPU 和 GPU 集群層面的差異化設(shè)計(jì);實(shí)現(xiàn)卓越的頻率和 PPA;在向新 3nm 工藝節(jié)點(diǎn)過(guò)渡時(shí),助力確保芯片一次流片成功。
3、全棧軟件已就緒
為充分釋放 Lumex CSS性能潛力,幫助客戶(hù)在硅片發(fā)貨前,實(shí)現(xiàn)從固件到應(yīng)用程序的所有層的頂級(jí)性能,Arm 推出了全新系列的軟件與工具,助力開(kāi)發(fā)者即刻著手原型設(shè)計(jì)、構(gòu)建 AI 工作負(fù)載,以及利用 Lumex CSS 平臺(tái)的完整 AI 功能。
這些軟件與工具包括:完整的 Android 16 就緒軟件棧,涵蓋可信固件至應(yīng)用程序?qū)樱煌暾颐赓M(fèi)的啟用 SME2 的 KleidiAI 軟件庫(kù);全新的自頂向下的遙測(cè)解決方案,用于分析應(yīng)用性能、識(shí)別瓶頸并優(yōu)化算法。
Arm KleidiAI 于 2024 年推出,旨在為Arm CPU 上運(yùn)行的 AI 推理工作負(fù)載提供軟件性能優(yōu)化,開(kāi)發(fā)者無(wú)需進(jìn)行任何額外的工作,目前該軟件庫(kù)已應(yīng)用于移動(dòng)端、云和數(shù)據(jù)中心等關(guān)鍵領(lǐng)域,包括 KleidiAI 已被集成到 ExecuTorch、Llama.cpp、MediaPipe、PyTorch、LightRT等幾乎所有主流AI框架的新版本中,開(kāi)發(fā)者只需開(kāi)始構(gòu)建應(yīng)用程序,即可在基于 Arm 架構(gòu)的平臺(tái)上自動(dòng)獲取性能的顯著提升。

因此,當(dāng)基于 Lumex 的設(shè)備在未來(lái)數(shù)月上市時(shí),應(yīng)用程序即刻就能在其 AI 工作負(fù)載上實(shí)現(xiàn)性能和效率提升。
在圖形處理方面,隨著未來(lái)的安卓版本將支持 RenderDoc,以及通過(guò) Lumex 提供 Vulkan計(jì)數(shù)器、Streamline 和 Perfetto 等統(tǒng)一可觀測(cè)性工具,開(kāi)發(fā)者能夠?qū)崟r(shí)分析工作負(fù)載、調(diào)優(yōu)延遲,并精確平衡電池續(xù)航與視覺(jué)效果。
小結(jié):
Arm全新推出的 C1 CPU 集群提供了高性能、高能效、高可擴(kuò)展性的內(nèi)核IP選擇,并且憑借對(duì)于SME2的支持,極大地提升了CPU的AI性能,為未來(lái)端側(cè) AI 的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。

全新的Mali G1-Ultra 則重新定義了移動(dòng) GPU 的性能,在光線(xiàn)追蹤性能提升的同時(shí),在架構(gòu)效率和AI加速性能上也迎來(lái)了突破性進(jìn)展,有望為新一代移動(dòng)終端的游戲體驗(yàn)和AI應(yīng)用帶來(lái)更出色的體驗(yàn)。
基于全新IP的Arm Lumex CSS 平臺(tái)則為客戶(hù)帶來(lái)了更為完整的CPU/GPU集群解決方案和軟件棧,以及基于3nm節(jié)點(diǎn)的物理版圖,這在當(dāng)前眾多科技大廠(chǎng)紛紛自研芯片的熱潮下,將有助于他們大幅降低在CPU/GPU集群研發(fā)上的投入,可以更專(zhuān)注地投入到自己核心的需求研發(fā)上,提升芯片一次流片成功率,加速產(chǎn)品的推出周期。
不過(guò),Arm高管在采訪(fǎng)環(huán)節(jié)也明確指出,目前Arm的 CSS 平臺(tái)只是專(zhuān)注于其擅長(zhǎng)的CPU、GPU IP和集群解決方案,可以為客戶(hù)提供參考設(shè)計(jì)和物理實(shí)現(xiàn),并不意味著Arm利用Lumex CSS平臺(tái)就可以為客戶(hù)定制完整的SoC解決方案,客戶(hù)也并不能利用Lumex CSS平臺(tái)就能夠直接交由晶圓代工廠(chǎng)生產(chǎn)自己的芯片,因?yàn)镾oC并不只有CPU/GPU就能夠運(yùn)行,這并不是一個(gè)完整的SoC解決方案,客戶(hù)仍然需要在Lumex CSS平臺(tái)基礎(chǔ)上加入一系列自己的IP或第三方IP來(lái)打造一個(gè)完整的SoC解決方案,比如接口IP、NPU IP、基帶IP等等。
值得一提的是,以往Arm在發(fā)布全新的CPU/GPU IP時(shí)都會(huì)透露相關(guān)產(chǎn)品的大致上市時(shí)間,也會(huì)有相關(guān)芯片廠(chǎng)商宣布將會(huì)率先采用,但是在這次的發(fā)布會(huì)上卻并沒(méi)有,只有vivo這家手機(jī)廠(chǎng)商高管有上臺(tái)發(fā)言。
不過(guò),猜測(cè)聯(lián)發(fā)科即將發(fā)布的天璣9500有可能會(huì)采用Arm全新的C1 CPU集群及G1-Ultra GPU,但是可能并不會(huì)采用Lumex CSS平臺(tái)來(lái)進(jìn)行設(shè)計(jì)。
畢竟之前聯(lián)發(fā)科天璣9400被說(shuō)是基于Arm面向客戶(hù)端的CSS設(shè)計(jì)時(shí),聯(lián)發(fā)科還曾公開(kāi)辟謠。
本文鏈接:http://m.www897cc.com/showinfo-22-181455-0.htmlArm發(fā)布全新C1 CPU與G1-Ultra GPU:Armv9.3指令集、新一代光追
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 17999元買(mǎi)它還是蘋(píng)果17 Pro Max!華為三折疊Mate XTs明天開(kāi)賣(mài) 備貨量曝光