Google 搜尋和 YouTube 等 Google 產品之所以能擁有如此先進的功能,背後的功臣是我們獨家開發的機器學習 (ML) 加速器:Tensor Processing Units (TPU);為了讓 Google Cloud 客戶也能享有這類加速器的優勢,我們開發出 Cloud TPU 。如今客戶對於機器學習系統容量、效能和規模的需求,持續呈現前所未有的成長,且為協助改良下一代人工智慧 (AI) 技術的運作基礎,我們今日宣布推出 預先發布版的 Google Cloud 機器學習叢集 ,這是全球速度最快、 效率最佳 ,且最符合永續發展理念的機器學習基礎架構中樞。
Google Cloud 的機器學習叢集是以 Cloud TPU v4 Pod 為基礎,讓位居前線的 AI 研究人員和開發人員能有突破性創舉,並訓練出漸趨精密的模型來支援各種工作負載,例如大規模的自然語言處理 (Natural Language Processing, NLP) 作業、建議系統,以及電腦視覺演算法。Cloud TPU v4 Pod 叢集在尖峰的整體效能可達每秒 900 萬兆次浮點運算,因此在累計運算能力方面,可說是 全球規模最大的公開機器學習中樞 , 而運作時的電力有 90% 是來自無碳能源 。
國際數據資訊公司 (International Data Corporation, IDC) 研究副總裁 Matt Eastwood 表示 :「我們針對 2,000 名企業內部 IT 決策者的 調查 顯示,基礎設施容量不足是多數人工智慧專案失敗的主要原因。為因應企業針對特製化人工智慧基礎設施的需求,Google 啟用位於美國奧克拉荷馬州的最新機器學習叢集,其配備每秒 900 萬兆次浮點運算的計算量能,可以說是全球規模最大的公開機器學習中樞。而運作時的電力有 90% 是來自無碳能源,充分展現 Google 持續開發永續性創新人工智慧基礎設施的決心。」
挑戰極限,創造無限可能
在 2021 年 Google I/O 大會上宣布推出 Cloud TPU v4 後,我們開放數個頂尖 AI 研究團隊搶先體驗 Cloud TPU v4 Pod,其中包括 Cohere、LG 人工智慧研發中心 (LG AI Research)、Meta AI 和 Salesforce Research 等團隊。參與體驗的團隊表示非常喜歡 TPU v4 提供的快速互聯和最佳化軟體堆棧能力,打造傑出的效能與擴充性,讓他們能透過 Google 全新的 TPU VM 架構自行設定互動式開發環境,同時還可靈活運用自己偏好的架構,包括 JAX、PyTorch 或 TensorFlow。藉由上述特性,這些團隊得以突破 AI 技術的藩籬,在成本效益和碳效率極佳的情況下,訓練大規模的先進機器學習模型。
Cohere 執行長暨共同創辦人 Aidan Gomez 指出: 「在 Cohere,我們建構了頂尖的自然語言處理 (NLP) 服務,內容包含了語言生成、分類以及搜尋的 API。這些工具是奠基於一套 Cohere 在 Cloud TPUs 上採用 JAX 架構,所從頭開始進行訓練的語言模型。從 TPU v3 改用 TPU v4 後,我們訓練最大型模型的時間縮短了 70%,方便研究人員加快疊代作業,進而為客戶提供更優質的成果。此外,Cloud TPU v4 Pod 極低的碳足跡對我們來說也是一大關鍵因素。」
LG 人工智慧研發中心 負責人 Kyunghoon Bae 博士說明: 「身為 Google 的策略研發夥伴,LG 人工智慧研發中心參與 Google 最新的機器學習超級電腦 TPU v4 商轉前的測試,來訓練 3,000 億參數等級的超級巨型人工智慧 LG EXAONE。有了多模型功能後,LG EXAONE 就開始透過 TPU v4,以及超過 6,000 億筆符記的文字 (tokens text) 資料庫和超過 2.5 億張圖片等大量資料來進行訓練,目的是在通訊、工作效率、創造力等不同領域上超越人類專家。TPU v4 不僅在效能方面超越其他業界一流的運算架構,在客戶支援方面也超乎我們的期待。我們很高興與 Google 合作,也期待深化雙方策略合作夥伴關係,透過先進人工智慧共創美好生活的願景。」
Meta AI 研究科學家 Ronghang Hu 介紹: 「我們已經開始測試 TPU v4 ,目標是加快訓練腳步,同時適應規模更大且更加創新的模型。我們希望日後能透過使用奠基於 PyTorch, XLA 與 TPU v4 的系統來突破電腦視覺研究的極限。」
Salesforce Research 研究科學家 Erik Nijkamp : 「TPU v4 的搶先體驗讓我們得以透過 CodeGen 專案 ,在對話式人工智慧編程上取得重大突破。CodeGen 專案擁有 160 億個參數自動迴歸語言模型,可以將簡單的英語提示轉換成可執行的程式碼。該模型的龐大規模是受到經驗觀察所激發,意即等比例縮放模型的參數量,以及訓練的樣本數,可以嚴謹地改善模型的運算表現,這種現象被稱為比例定律。對於向外擴充型的機器學習訓練模型來說,TPU v4 是相當出色的平台,提供了卓越的效能優勢, 遠勝於其他同類型的 AI 硬體產品。」
除此之外,TPU v4 也讓 Google 研究團隊在語言理解、電腦視覺、語音辨識和其他多個領域上取得諸多突破性進展,包括近期發布的 Pathways Language Model (PaLM) ,便是透過兩個 TPU v4 Pod 訓練而得。
Google 研究團隊和 AI 部門資深副總裁 Jeff Dean: 「為了讓進階 AI 硬體更容易使用,我們在幾年前推出了 TPU Research Cloud (TRC) 計畫 ,為全世界數萬名機器學習技術愛用者提供免費的 TPU 體驗機會。這些使用者發布了 數百篇相關文章 和開放原始碼 GitHub 程式庫,主題從「運用 AI 來撰寫波斯語詩文」到「透過電腦視覺和行為遺傳學來分辨睡眠和運動導致的疲勞感」應有盡有。Cloud TPU v4 的推出,對 Google 研究團隊和 TRC 計畫來說都是一大里程碑,而我們也很高興能和世界各地的機器學習開發人員展開長期合作,利用 AI 技術造福人群。」
符合永續發展理念的創新機器學習技術
這項研究的進行主要採用無碳能源,這使 Google Cloud 機器學習叢集顯得更為出色。我們也 致力於推動永續發展 ,自 2017 年起,便開始購買與資料中心和雲端區域每年用電量完全相當的可再生能源。我們的目標是在 2030 年前, 全面採用無碳能源 (CFE) 來維持所有單位全天候營運。我們的奧克拉荷馬州資料中心是機器學習叢集的存放位置,該設施運作期間,同一個電網內每小時輸送的電力有 90% 都源自無碳能源,正朝著無碳未來的目標邁進。
除了使用潔淨能源供電外,該資料中心經評估測得的電力使用效能 (PUE) 為 1.10,是全球最節能的資料中心之一。TPU v4 晶片本身就具有極佳的能源效率,每瓦特最大功率的尖峰每秒浮點運算次數 (FLOPs) 是 TPU v3 的 3 倍。綜上所述,我們之所以能大幅減少能源使用和碳排放量,要歸功於 Cloud TPU v4 導入的 三大關鍵最佳做法 :配備節能的機器學習專屬硬體、將相關內容存放在高效率的資料中心,以及透過潔淨能源供電。
卓越的擴充性和成本效益
除了永續發展議題外,我們在與首屈一指的機器學習團隊合作時,也觀察到另外兩大難題:擴充性和成本效益。為解決這些問題,Google 奧克拉荷馬州資料中心的機器學習叢集為研究人員提供所需容量,方便他們訓練模型。這類叢集不僅採用極具成本效益的計費方式,還可在業界最乾淨的雲端環境中運作。Cloud TPU v4 正是協助該資料中心順利克服上述挑戰的核心要素。
擴充性: 每個 Cloud TPU v4 Pod 內含 4,096 個透過極速互聯網路介面相互連結的晶片,且每部主機的頻寬相當於業界領先的每秒 6 TB (Tbps) 頻寬,讓相關人員能夠快速訓練規模最龐大的模型。
成本效益: 每個 Cloud TPU v4 晶片的尖峰 FLOPs 大約是 Cloud TPU v3 的 2.2 倍,且 每一美元 約可獲得 1.4 倍的尖峰 FLOPs 成效。Cloud TPU v4 也讓 這些 FLOPs 達到極高的使用率 ,使相關人員得以透過上千個晶片,大規模訓練機器學習模型。雖然有許多人會將尖峰 FLOPs 做為比較各個系統的基礎,但實際上,模型的訓練效率取決於大規模持續運作的 FLOPs。Cloud TPU v4 具備高網路頻寬和編譯器最佳化功能,因此 FLOPs 使用率大幅領先其他系統,可有效縮短訓練時間並改善成本效益。
晶片特色
Cloud TPU v3
Cloud TPU v4
每個晶片在尖峰的運算效能
每秒 123 兆次浮點運算 (bf16)
每秒 275 兆次浮點運算 (bf16 或 int8)
HBM2 容量和頻寬
32 GiB,每秒 900 GB
32 GiB,每秒 1200 GB
測得的最小/平均/最大功率
123/220/262 瓦
90/170/192 瓦
TPU Pod 大小
1,024 個晶片
4,096 個晶片
互連網路拓撲
2D 環面
3D 環面
每個 Pod 在尖峰的運算效能
每秒 126 千兆次浮點運算 (bf16)
每秒 110 萬兆次浮點運算 (bf16 或 int8)
每個 Pod 的全降頻寬
每秒 340 TB
每秒 1.1 PB
每個 Pod 的對分頻寬
每秒 6.4 TB
每秒 24 TB
Cloud TPU v4 Pod 透過在FLOPS、互聯和 能源效率 方面顯著的進展,提供頂尖的性能。
Cloud TPU v4 Pod 的配置內含 4 個晶片 (單一 TPU VM) 到數千個晶片不等。儘管上一代 TPU 的配置小於完整 Pod 且缺少環面連結 (或稱「環繞連結」),但經過改良後,所有 Cloud TPU v4 Pod 皆配置至少 64 個晶片,並在 3 個維度上採用環面連結設計,讓使用者能以更高的頻寬進行集體通訊作業。
Cloud TPU v4 還支援使用者存取完整單一裝置的 32 GiB 記憶體,不僅高於 TPU v3 的 16 GiB,並提供 2 倍的嵌入速度,成功提高訓練大規模推薦模型的成效。
定價
Cloud TPU v4 Pod 的使用方式提供評估配額 (以量計價)、先占和承諾使用折扣 (CUD) 等選項,詳細資訊請參閱 官方網頁 。
立即開始使用
我們很高興能為所有使用者提供採用先進機器學習基礎架構的 Google 服務,且相當期待大家善用 Cloud TPU v4 在擴充性、效能、永續發展和成本效益方面皆領先業界的優勢,透過機器學習技術帶來跨世代的創新突破。
若有意瞭解如何使用 Cloud TPU 進行開放原始碼機器學習研究,請參閱我們的 TPU Research Cloud 計畫。
特別銘謝
我們由衷感謝 Cloud TPU 工程和產品團隊的指導,讓我們得以順利推出此服務。此外,也感謝軟體工程師 James Bradbury 、對外產品經理 Vaibhav Singh ,以及產品經理 Aarush Selvan 對此文章的貢獻。
本文作者:
Google 基礎設施副總裁暨總經理 Sachin Gupta
Google Cloud TPU 產品經理 Max Sapozhnikov
回覆刪除For years there 123VEGA have been FA CHAI SLOT calls for Asia - which JILI SLOT is home to some PRAGMATIC PLAY of the world's สล็อตPG biggest CO2 emitters - to ditch fossil fuels 11HILO to help tackle climate AMB CASINO change. Countries in the region - including FC SLOT its three biggest economies 88KTC China, Japan and India - were criticised last year 123GOAL for not making a bigger.
Mẹo hay mỗi ngày
回覆刪除Một số cách làm kinh nguyệt ra sớm hơn
Tin sức khỏe
回覆刪除Gai sinh dục là gì: triệu chứng nhận biết, cách điều trị
In the uber-successful UFA1688 franchise, Pesci played 123goal one half a bungling thief ลิงค์รับทรัพย์ duo alongside Daniel ufa1688 Stern who is continually one-upped ufabet เข้าสู่ระบบ ทางเข้า by a clever kid played by ยูฟ่า1688 Macaulay Culkin. He 123goal acknowledged that the movies 123VEGA were a more physical type เครดิตฟรี of comedy, therefore, a little สล็อตออนไลน์ more demanding.
回覆刪除ต่อเติมบ้าน
回覆刪除