Google最近宣布,其數(shù)據(jù)中心已開(kāi)始使用包含TPU v5p的AI加速器。這種新的加速器被視為Google迄今為止最強(qiáng)大、最具擴(kuò)展性和彈性的AI加速器,被廣泛認(rèn)為是AI Hypercomputer系統(tǒng)中的關(guān)鍵要素。
Google的數(shù)據(jù)中心正在廣泛運(yùn)用TPU v5p,以提高大型語(yǔ)言模型(LLM)的訓(xùn)練速度。據(jù)Google公布的數(shù)據(jù)顯示,與TPU v4相比,TPU v5p在進(jìn)行LLM訓(xùn)練時(shí)的速度要快2.8倍。這種顯著的提升將極大地加速AI工作負(fù)載的處理速度,對(duì)于那些需要大量計(jì)算資源和時(shí)間來(lái)訓(xùn)練和微調(diào)大模型的AI應(yīng)用來(lái)說(shuō),這是一個(gè)重大的進(jìn)步。
Google的這一進(jìn)步凸顯了TPU迭代的速度正在加快。就在8月份,Google Cloud才剛剛推出了TPU v5e,這表明TPU的迭代速度已經(jīng)悄然加快。這種快速的迭代使得Google能夠保持其在AI領(lǐng)域的領(lǐng)先地位,并滿足不斷增長(zhǎng)的AI工作負(fù)載的需求。
Google Cloud機(jī)器學(xué)習(xí)和云端AI副總Amin Vahdat強(qiáng)調(diào),為了有效地管理AI工作負(fù)載,需要一個(gè)完整的AI分層系統(tǒng)(AI stack),包括算力、儲(chǔ)存、網(wǎng)絡(luò)、軟件和相關(guān)的開(kāi)發(fā)架構(gòu)。這些組件需要相互協(xié)同,以提供最佳的性能和效率。
Google的AI Hypercomputer基礎(chǔ)設(shè)施旨在為AI工作負(fù)載提供優(yōu)化支持。這個(gè)基礎(chǔ)設(shè)施從底層開(kāi)始,首先是硬件層,包括算力(GPU和TPU)、儲(chǔ)存(區(qū)塊、檔案和物件類)以及網(wǎng)絡(luò)資源。這里運(yùn)用了水冷散熱、光纖網(wǎng)絡(luò)交換等相關(guān)技術(shù)。
再往上,是開(kāi)源軟件層和消費(fèi)應(yīng)用層。TPU不僅被Google自用,也提供給開(kāi)發(fā)者和企業(yè)用戶使用,以加速他們的AI應(yīng)用開(kāi)發(fā)時(shí)程。目前,已經(jīng)有多個(gè)客戶案例,包括Salesforce、Lightricks等。
值得注意的是,云服務(wù)領(lǐng)域的領(lǐng)導(dǎo)者AWS最近也提出了生成式AI分層系統(tǒng)的概念。在這個(gè)系統(tǒng)中,底層算力包括GPU和AWS的自研芯片系列和開(kāi)發(fā)平臺(tái),而上層則是開(kāi)發(fā)工具和應(yīng)用程序。
微軟也是云服務(wù)領(lǐng)域的巨頭,最近也公布了訓(xùn)練和推論用的AI芯片Maia以及通用運(yùn)算芯片Cobalt。微軟表示,這些自研芯片將在2024年導(dǎo)入其數(shù)據(jù)中心。微軟強(qiáng)調(diào),基礎(chǔ)設(shè)施系統(tǒng)涵蓋了芯片、軟件、服務(wù)器、機(jī)柜、冷卻系統(tǒng)等各個(gè)層面,每個(gè)層面都在不斷優(yōu)化并走向自行設(shè)計(jì)。
本文鏈接:http://m.www897cc.com/showinfo-27-39427-0.htmlGoogle加速TPU迭代,打造AI超算
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com