Google Cloud 推出 TPU v5p 及 AI Hypercomputer，支援下一代 AI 工作負載

「加三嘻行動哇 Yipee! 成為好友」

【Facebook、Youtube、Twitter、Instagram、Telegram、Line】

生成式 AI 模型正在迅速進化，並提供精密性與功能。這項技術進展得以讓各產業的企業與開發人員解決複雜的問題，並發掘新商機。不過生成式 AI 模型的成長，也導致訓練、調整與推論方面的要求變得更加嚴苛。

過去五年來，生成式 AI 模型的參數每年增加十倍，現今的大型模型具有數千億、甚至數兆項參數，即便使用最專門的系統，仍需要相當長的訓練時間，有時需持續數月才能完成。此外，高效率的 AI 工作負載管理需要一個具備一致性、且由最佳化的運算、儲存、網路、軟體和開發框架所組成的整合式 AI 堆疊。

為解決這些難題，Google 推出 Cloud TPU v5p，這是功能最強大、擴充能力最佳，且最具有彈性的 AI 加速器。長久以來，TPU 一直是用來訓練、服務 AI 支援的產品之基礎，這類產品包含 YouTube、Gmail、Google 地圖、Google Play 及 Android。事實上，Google 日前宣布推出的 AI 模型 Gemini 便是使用 TPU 進行訓練與服務。

此外，這次還推出 Google Cloud AI Hypercomputer。AI Hypercomputer 是 Google Cloud 的超級電腦架構，採用整合式系統，並結合了效能最佳化硬體、開放式軟體、領先機器學習架構及靈活彈性的消費模式。傳統上通常是以零碎的方式，在元件層級進行增強以處理要求嚴苛的 AI 工作負載需求，而這可能導致效率不佳，或出現瓶頸。相較之下，AI Hypercomputer 採用系統層級的協同設計來提升 AI 訓練、調整與服務的效率與生產力。

探索 Cloud TPU v5p：Google Cloud 目前功能最強大、擴充能力最佳的 TPU 加速器

Google 在 2023 年 11 月宣布全面推出 Cloud TPU v5e。相較於上一代的 TPU v4，Cloud TPU v5e 的性價比提高了 2.3 倍，是目前最具成本效益的 TPU。而 Cloud TPU v5p 則是目前功能最強大的 TPU。每個 TPU v5p Pod 均由 8,960 個晶片組成，透過頻寬最高的晶片間互連網路（Inter-chip Interconnect, ICI）相連，採用 3D 環面拓撲，提供每晶片 4,800 Gbps 的速度。相較於 TPU v4，TPU v5p 每秒的浮點運算次數（FLOPS）提高 2 倍以上，高頻寬記憶體（High-bandwidth Memory, HBM）則增加 3 倍。

TPU v5p 專為效能、彈性與大規模作業而設計，相較於前一代的 TPU v4，TPU v5p 訓練大型 LLM 模型的速度提升 2.8 倍。不僅如此，若搭配第二代 SparseCores，TPU v5p 訓練嵌入密集模型的速度較 TPU v4 快 1.9 倍。

資料來源：Google 內部資料，截至 2023 年 11 月， GPT3-175B的所有數據均以晶片為單位完成標準化作業

資料來源：TPU v5e 資料來自 MLPerf™ 3.1 Training Closed 的 v5e 結果；TPU v5p 及 v4 數據來自 Google 內部執行的訓練作業。截至 2023 年 11 月，GPT-3 1750 億參數模型的所有數據均以每晶片 seq-len=2048 為單位完成標準化，並以 TPU v4：$3.22 美元/晶片/小時、TPU v5e： $1.2 美元/晶片/小時、以及 TPU v5p：$4.2 美元/晶片/小時的公開定價顯示每美元相對的效能

TPU v5p 不僅效能更優異，就每 Pod 的總可用 FLOPS 而言，TPU v5p 的擴充能力較 TPU v4 高 4 倍，且 TPU v5p 每秒的浮點運算次數（FLOPS）是 TPU v4 的兩倍，並在單一 Pod 中提供兩倍的晶片，可大幅提升訓練速度的相對效能。

Google AI Hypercomputer 大規模提供頂尖效能與效率

達到規模和速度是必要，但並不足以滿足現代 AI/ML 應用程式與服務的需求。軟硬體元件必須相輔相成，組成一個易於使用、安全可靠的整合式運算系統。Google 已針對此問題投入數十年的時間進行研發，而 AI Hypercomputer 正是我們的心血結晶。此系統集結了多種能協調運作的技術，能以最佳方式來執行現代 AI 工作負載。

效能最佳化硬體：AI Hypercomputer 以超大規模資料中心基礎架構為建構基礎，採用高密度足跡、水冷技術以及我們 Jupiter 資料中心網路技術，在運算、儲存與網路功能上皆能提供最佳效能。上述一切均仰賴以效率為核心的技術，不僅採用潔淨能源，並深耕水資源管理，協助我們朝無碳未來邁進。
開放式軟體：透過 AI Hypercomputer，開發人員即可使用開放式軟體存取 Google 的效能最佳化硬體，利用這些硬體調整、管理及動態調度管理 AI 訓練與推論的工作負載。
- 廣泛支援多種熱門機器學習架構（例如 JAX、TensorFlow 與 PyTorch），全可立即使用。如要建立複雜的 LLM，JAX 與 PyTorch 均採用 OpenXLA 編譯器。XLA 作為基礎骨幹，提供建立複雜多層式模型的功能 (可參閱在 Cloud TPU 上使用 PyTorch/XLA 進行 Llama 2 訓練與推論的說明)。XLA 會將廣泛硬體平台的分散式架構調整至最佳狀態，確保各種 AI 用途的模型開發作業既簡單又有效率（可參閱 AssemblyAI 在大規模 AI 語音技術中運用 JAX/XLA 與 Cloud TPU 的說明）。
- 提供開放且獨特的 Multislice Training及Multihost Inferencing 軟體，分別使擴充、訓練與提供模型的工作負載變得流暢又簡單。若要處理需求嚴苛的 AI 工作負載，開發人員可將晶片數量擴充至數萬個。
- 深度整合 Google Kubernetes Engine（GKE）及 Google Compute Engine，已提供有效率的管理資源、一致的作業環境、自動調度資源、自動佈建節點集區、自動查核點、自動續傳，並即時進行故障復原等作業。
靈活彈性的消費模式：AI Hypercomputer 提供廣泛且彈性的動態消費選擇。除了承諾使用折扣（Committed Used Discunts, CUD）、以量計價與現貨價格等傳統選項，AI Hypercomputer 也透過 Dynamic Workload Scheduler 提供專為 AI 工作負載量身打造的消費模式。Dynamic Workload Scheduler 包含兩種消費模式：Flex Start Mode 可取得更多資源，且價格實惠，Calendar Mode 則適用於工作開始時間較容易預測的工作負載。

延伸閱讀：

Google Bard 大升級，即日起將開放 Gemini Pro 模型

AI 模型 Google Gemini 報到！將挑戰 GPT4.0 霸權

Google 旗下 AI 聊天機器人 Bard 升級，可以直接回答 YouTube 影片內容

調查報告顯示 AI 提升釣魚郵件辨識難度，微軟、Google、亞馬遜名列前十大最常遭冒充品牌

Google 推出全新 AI 生成工具，能為廣告主打造個性化廣告

圖片及資料來源：Google

Google Cloud 推出 TPU v5p 及 AI Hypercomputer，支援下一代 AI 工作負載

探索 Cloud TPU v5p：Google Cloud 目前功能最強大、擴充能力最佳的 TPU 加速器

Google AI Hypercomputer 大規模提供頂尖效能與效率

大家對網站文章上的一個讚、+1及轉分享，都是對我們的最好的鼓勵及繼續下去的原動力，請大家不要吝嗇。

發表迴響取消回覆

下一頁

傳出 Apple 蘋果計畫在 2024 年下半年推出全新入門款 iPad

探索 Cloud TPU v5p：Google Cloud 目前功能最強大、擴充能力最佳的 TPU 加速器

Google AI Hypercomputer 大規模提供頂尖效能與效率

大家對網站文章上的一個讚、+1及轉分享，都是對我們的最好的鼓勵及繼續下去的原動力，請大家不要吝嗇。

發表迴響取消回覆

你可能喜歡

Share

Copy short link