生成式 AI 正在改變我們與科技互動的方式,並在提升企業效率的領域,開啟了廣大契機。但這些進步需要更大的計算能力和記憶體、以及更精準的溝通方式,才能訓練並微調功能最強大的模型,以為全球使用者提供順暢的互動服務體驗。十多年來,我們一直在開發客製化的 AI 專用硬體:Tensor Processing Unit(TPU),以推動 AI 在規模及效率的極限。
今天我們在 Google I/O 大會所發表的諸多創新都是由 TPU 所支援,這些創新包括 Gemini 1.5 Flash、Imagen 3 和 Gemma 2 等全新模型,這些模型不但是以 TPU 訓練打造,也透過 TPU 提供服務。為了提供下一代前沿模型,並協助使用者也能加入創新行列,我們很高興地宣布推出 Trillium,它是我們的第 6 代 TPU,也是迄今為止效能最高以及最節能的 TPU。
與 TPU v5e 相比,Trillium TPU 每一晶片峰值計算效能提升了 4.7 倍,為相當驚人的表現。我們將高頻寬記憶體(High Bandwidth Memory, HBM)的容量與頻寬提升 1 倍,晶片間互連網路(Interchip Interconnect, ICI)頻寬也提高了一倍。此外,Trillium 還配備了第三代 SparseCore,這是處理超大嵌體的專用加速器,常用於處理進階排名與推薦工作負載。Trillium TPU 可以更快速地訓練下一代基礎模型,並以較短的延遲時間與較低成本提供模型服務。重要的是,我們第 6 代 TPU 也最具永續特質:與 TPU v5e 相比, Trillium TPU 的能源效率高出 67%。
Trillium 可以在單個高頻寬、低延遲的 Pod 上擴展到多達 256 個 TPU。除了該 Pod 級別的可擴充性外,Trillium TPU 利用多切片技術(Multislice technology)和 Titanium 智慧處裡單元(Intelligence Processing Unit)優勢,還能擴充到數百個 Pods,連結媲美建築物的超級電腦中的數萬個晶片,這些晶片透過每秒多個 PB(petabit)的速率互連資料中心網路。
十多年前,Google 意識到需要一款專用於機器學習的全新晶片。因此,2013 年,我們開始研發製造全球首款專為 AI 打造的加速器 TPU v1,並於 2017 年推出首款 Cloud TPU。TPU 是 Google 許多廣受歡迎服務的最大功臣之一,要是少了它,我們的即時語音搜尋、相片物件識別和互動式語言翻譯,以及最先進的 Gemini、Imagen 及 Gemma 基礎模型等服務都無法問世。事實上,TPU 的規模和效率為 Google Research 的 Transformers 基礎工作奠定了基礎,而 Transformers 則是當今生成式 AI 的演算法基礎。
TPU 是專為神經網路而打造的,我們始終致力於進一步縮短 AI 工作負載的訓練和服務時間。和 TPU v5e 相比,Trillium 每個晶片尖峰效能提升了 4.7 倍。為了達到這樣的效能水平,我們擴大了矩陣乘法單元(MXU)的大小並提高了時脈速度(clock speed)。另外,SparseCore 透過策略性卸載來自 TensorCores 隨機與細粒度存取,以加速繁重的嵌入型工作負載。
將 HBM 容量和頻寬翻倍,使 Trillium 能處理具有更多權重和更大鍵值快取(key-value caches)的較大模型作業。下一代 HBM 實現更大的記憶體頻寬與效能,同時還具備靈活的通道架構,以提升記憶體處理量,這可改善大型模型的訓練時間和服務延遲。換句話說,等於可處理雙倍的模型權重和鍵值快取,能更快地進行存取,並具有更高的運算能力,來加速機器學習(ML)的工作負載。將晶片間互連網路(Inter-chip Interconnect, ICI)頻寬加倍,使訓練和推理作業能夠擴展至數萬個晶片,策略性結合訂製光學 ICI 與 Pod 中的 256 個晶片互連,並透過 Google Jupiter 網路將擴充性延伸到集群中的數百個 Pods。
Trillium TPU 將是下一波 AI 模型和虛擬專員的推手,我們期待幫助客戶藉由這些進階功能達到其商業目標。例如,自動駕駛汽車公司 Nuro 致力於透過使用 Cloud TPU 訓練自家模型來打造機器人,以建立更好的日常生活體驗;Deep Genomics 則借助 AI 推動藥物發現的未來,並期待運用由 Trillium 所支援的下一代基礎模型來改變病患的生活;勤業眾信作為 Google Cloud 年度 AI 合作夥伴,將提供 Trillium 來幫助企業利用生成式 AI 進行轉型。此外,支援 Trillium TPU 訓練與提供長篇脈絡、多模態模型,也將使 Google DeepMind 能夠比以往更快、更高效,以及更低延遲地訓練和提供下一代 Gemini 模型。
「 Gemini 1.5 Pro 是 Google 規模最大且功能最強的 AI 模型,訓練過程使用數萬個 TPU 加速器。我們團隊對於推出第六代 TPU 感到相當興奮,同時期待 Gemini 模型在大規模訓練和推理方面大幅提升性能和效率。」- Google DeepMind 及 Google Research 首席科學家 Jeff Dean
Trillium TPU 是 Google Cloud AI 超級電腦的一部分,這種電腦是劃時代的超級運算架構,專為尖端 AI 工作負載所設計。它集成了效能最佳化的基礎架構(包含 Trillium TPU)、開放原始碼軟體架構,以及靈活的消費模式。我們對開放原始碼程式庫(例如 JAX、PyTorch/XLA 和 Keras 3)的堅持與承諾,能使開發人員如虎添翼。再加上我們支援 JAX 和 XLA,意味著為上一代 TPU 所編寫的宣告式模型描述,可以順暢對應到 Trillium TPU 的全新硬體與網路功能。此外,我們還與 Hugging Face 合作開發 Optimum-TPU,以簡化模型訓練和服務。
「我們與 Google Cloud 的合作使 Hugging Face 的使用者可以更輕鬆地在 Google Cloud 的 AI 基礎設施(包括 TPU)上進行微調和運行開放模型。我們很期待透過即將推出的第六代 Trillium TPU 進一步加速開源 AI,並且我們預期開放式模型將繼續提供最佳效能,因為與上一代相比,每個晶片的效能提高了 4.7 倍。我們將透過我們新的 Optimum-TPU 庫,讓所有 AI 建造者皆能輕鬆體驗 Trillium 的性能!」- Hugging Face 產品主管 Jeff Boudier
AI 超級電腦還提供 AI 及機器學習(ML)工作負荷所需靈活有彈性的消費模式。動態工作負載排程(Dynamic Workload Scheduler, DWS)讓存取 AI 與 ML 資源變得更加容易,並能夠幫助客戶優化支出。彈性啟動模式(Flex Start Mode)能同時調度所有需要的加速器,以改善突發工作負載(例如訓練、微調或批次作業)的體驗,而且能支援下列所有進入點:Vertex AI 訓練、Google Kubernetes Engine(GKE)或 Google Cloud Engine。
Lightricks 很高興能夠從效能提升和 AI 超級電腦帶來的效率提升中,獲得價值回報。
「自 Cloud TPU v4 開始,我們就一直採用 TPU 處理文字轉圖像及文字轉影片的模型。憑藉 TPU v5p 和 AI 超級電腦的效能,我們的訓練速度實現了 2.5 倍的驚人提升!而第 6 代 Trillium TPU,和上一代相比,每個晶片的運算效能有驚人的 4.7 倍運算效能的提升, HBM 容量和頻寬則提高了 2 倍。 此新消息的發布,對於正要擴大文字轉影片生成模型的我們來說,時機再恰好不過。我們也期待開始運用動態工作負載排程(Dynamic Workload Scheduler, DWS)的彈性啟動模式,以妥善管理批次推理作業,並管理我們未來對 TPU 的預留。」Lightricks 核心生成式 AI 研究團隊主管 Yoav HaCohen 博士
Google Cloud TPU 是 AI 加速領域的前沿技術,經過客製化設計和優化,可賦能大型 AI 模型。TPU 由 Google Cloud 獨家提供,為訓練和提供 AI 解決方案提供無與倫比的效能和成本效益。不論是用來執行複雜用途的大型語言模型,或是圖像生成所需要的潛在創意,TPU 都有助於開發人員和研究者將人工智慧發揮到淋漓盡致。
第 6 代 Trillium TPU 集逾十年研究及創新於大成,預計今年底前推出。若需進一步瞭解 Trillium TPU 和 AI 超級電腦,請填寫此表單,我們的銷售團隊將主動與你聯絡。
本文作者:Google Cloud 機器學習、系統和 Cloud AI 副總裁暨總經理 Amin Vahdat
沒有留言 :
張貼留言