googleAI芯片大降级:瞄准大模子以及天生式AI,还集成主流深度学习框架
更强的芯片学习功能 、功能,大降更低的瞄集成老本,google迎来了自家 AI 芯片的准大主流更新换代。
不断以来,模及google已经构建了业界争先的天生 AI 能耐 ,好比引领新一代家养智能睁开的式A深度 Transformer 架构、运用 AI 妨碍优化的框架根基配置装备部署等。其中google云则自动于提供先进的芯片学习 AI 根基配置装备部署效率 ,搜罗 GPU 以及 TPU。大降
当地光阴 8 月 29 日 ,瞄集成google云举行了 Google Cloud Next ’23 年度大会 ,准大主流推出了全新的模及 TPU 产物 ——Cloud TPU v5e,它是天生 AI 优化的根基配置装备部署产物组合,并将成为迄今为止最具老本效益 、式A深度多功能且可扩展的云 TPU。当初已经提供了预览版。
咱们懂取患上, TPU v5e 可能与 Google Kubernetes Engine(GKE)、用于构建模子以及 AI 运用的开拓者工具 Vertex AI 以及 Pytorch、JAX、TensorFlow 等深度学习框架集成在一起 ,提供了易用以及熟习的界面,很简略上手。
google云还推出了基于英伟达 H100 GPU 的 GPU 超级合计机 A3 VMs ,为大规模 AI 大模子提供反对于。这款产物将于 9 月份周全上市 。
google首席迷信家 、驰名学者 Jeff Dean 的推文。
此外在行动上,google还宣告将 Meta 以及 Anthropic 等公司的 AI 工具(如 Llama 2 以及 Claude 2)削减到其云平台上 , 在云产物中集成强盛的天生式 AI 能耐。当初搜罗 Llama 2 以及 Claude 2 在内,google云客户可能运用 100 多个强盛的 AI 模子以及工具。
相较于 TPU v4,TPU v5e 在哪些方面降级了
google云这次推出的 TPU v5e 功能以及易用性事实若何呢?咱们接着来看 。
凭证民间提供的数据,Cloud TPU v5e 为中型以及大型磨炼以及推理带来了高功能以及老本效益。这代 TPU 可能说专为狂语言模子以及天生式 AI 模子打造 ,与前代 TPU v4 比照 ,每一美元磨炼功能后退涨达 2 倍 、每一美元推理功能后退涨达 2.5 倍 。而且 TPU v5e 的老本不到 TPU v4 的一半,使更多机构有机缘磨炼以及部署更大、更重大的 AI 模子 。
值患上一提的是 , 患上益于技术上的立异,这些老本效益并不需要舍身任何功能或者锐敏性。google云运用 TPU v5e pods 来失调功能 、锐敏性以及功能,至多应承 256 个芯片互连,总带宽逾越 400 Tb/s,INT8 功能抵达 100 petaOps。
TPU v5e 还具备很强的多功能性,反对于八种差距的伪造机配置装备部署,单片内芯片数目可能从一个到 256 个 ,应承客户抉择适宜的配置装备部署来反对于差距规模的狂语言模子以及天生式 AI 模子 。
除了更强功能以及老本效益之外,TPU v5e 的易用性也抵达了一个全新的高度。如今客户可能经由 Google Kubernetes Engine(GKE)来规画 TPU v5e 以及 TPU v4 上的大规模 AI 使命负载编排,进而提升 AI 开拓功能。对于喜爱重大托管效率的机构而言,Vertex AI 如今反对于运用 Cloud TPU 伪造机来磨炼差距的框架以及库了。
此外如前文提到的,Cloud TPU v5e 为 JAX 、PyTorch 以及 TensorFlow 等争先的 AI 框架以及盛行开源工具(Huggingface 的 Transformers 以及 Accelerate 、PyTorch Lightning 以及 Ray)提供了内置反对于 。即将推出的 PyTorch/XLA 2.1 版本将反对于 TPU v5e 以及用于大规模模子磨炼的建模以及数据并行等新功能。
最后为了更轻松地扩展磨炼使命,google云在 TPU v5e 预览版中引入了 Multislice 技术,运用户轻松扩展 AI 模子 ,而且可能逾越物理 TPU pods 的规模,至多可能容纳数万个 TPU v5e 或者 TPU v4 芯片。
妨碍当初 ,运用 TPU 的磨炼使命仅限于单片 TPU 芯片,TPU v4 的最大切片数目为 3,072 。借助 Multislice,开拓职员可能运用单个 Pod 内的 ICI(芯片内互连)技术概况经由数据中间收集(DCN)上的多个 Pod ,将使命负载扩展到数万个芯片