UStackUStack
TPU Developer Hub icon

TPU Developer Hub

TPU Developer Hub 汇集 Google Cloud 上使用 TPUs 构建、训练与部署机器学习模型的教程与文档,覆盖 vLLM、JAX、PyTorch 等。

TPU Developer Hub

TPU Developer Hub 是什么?

TPU Developer Hub 是 Google Cloud 资源页面,汇集了开发者在 Google Cloud TPUs 上构建、训练与部署机器学习模型的教程、指南、视频和文档。它旨在作为加速 TPU 全生命周期的中心起点——从早期实验到生产就绪的推理与部署。

该中心聚焦常见开源框架和生态系统的实用开发,包括 vLLM、JAX 和 PyTorch,并指向 TPU 架构以及调试/性能分析资源。

主要功能

  • Cloud TPUs 的构建/训练/部署资源中心:精选链接覆盖全生命周期,包括设置检查清单、调试指南、性能分析流程和部署专用材料。
  • 框架导向的学习路径:涵盖 JAX(包括调试)和 PyTorch(包括使用最少代码更改在 TPUs 上运行 PyTorch 工作负载)的资源。
  • 使用 vLLM 的生产推理指南:关于使用 vLLM 处理高吞吐量、低延迟工作负载的材料,包括 TPU 部署栈和社区配方。
  • TPU 架构与性能工具参考:链接用于了解 TPU 架构以及使用性能分析工具(如 XProf)识别和减少训练管道瓶颈。
  • TPUs 上的训练与后训练工作流程:内容涵盖模型扩展/预训练、后训练优化以及 TPU 导向 JAX 库和示例支持的微调方法。
  • 官方文档、配方与发行说明:面向开发者的 TPU 文档、可重现工作负载配方以及 Google Cloud TPUs 新功能更新。

如何使用 TPU Developer Hub

  1. 从 TPU 基础入手,如果您是 TPU 新手,使用“设置 Cloud TPU 环境”检查清单及相关入门材料。
  2. 根据工作负载选择框架路径——跟随 JAX 专用调试/性能分析资源,或运行 PyTorch 于 TPUs 的指南。
  3. 转向性能与部署主题,使用性能分析材料(用于瓶颈识别)和 vLLM TPU 推理资源处理部署工作流程。
  4. 使用“TPU 文档 / 配方 / 发行说明”部分,参考官方细节并重现与您的用例相关的可重现工作负载。

使用场景

  • 入门 Cloud TPU 环境:使用端到端设置检查清单教程配置并验证工作 TPU 开发环境。
  • 在 TPUs 上调试与性能分析 JAX:跟随 Cloud TPUs 上运行的 JAX 工作负载的调试与性能分析技术实用指南。
  • 使用 vLLM 在 TPUs 上运行高吞吐量推理:使用 TPU 部署指南和 vLLM 专用资源部署低延迟推理工作负载,并探索社区配方。
  • 使用 TPU 推理快速入门部署大语言模型:使用 Inference Quickstart (GIQ) 推荐 API 指南探索在 Google Kubernetes Engine (GKE) 上部署开源 LLM 的性能与定价指标。
  • 扩展预训练与训练吞吐量:跟随描述使用 JAX、PyTorch 和 Keras 在 TPUs 上扩展模型预训练的材料,包括使用 JAX 构建 GPT-2 风格模型的示例。

常见问题

  • TPU Developer Hub 是产品还是文档中心? 它作为开发者资源的集中集合——教程、指南、视频和官方文档链接——专注于 Google Cloud TPUs。

  • 它覆盖哪些 ML 框架? 该中心突出 vLLMJAXPyTorch 的资源,以及相关 TPU 生态工具和工作流程(例如,基于 JAX 的库和 TPU 导向部署内容)。

  • 它包括推理和训练材料吗? 是的。该页面包括扩展预训练与训练的部分,以及生产推理指南(包括 vLLM 和优化 TPU 部署栈)。

  • 有性能故障排除资源吗? 该中心包括调试/性能分析教程和内容,如使用 XProf 性能分析帮助识别训练管道瓶颈。

  • 在哪里找到学习材料之外的官方 TPU 细节? 该页面引导用户至专用部分,包括 TPU 文档、工作负载配方和 TPU 发行说明。

替代方案

  • Cloud TPU 文档(官方参考):如果您已知目标框架/工作负载并需要参考细节,则以文档为主的方法比精选中心更好。
  • 特定框架的 TPU 项目(JAX 生态系统或 PyTorch/XLA 指南):如果您主要在单一框架内工作,则使用该框架的 TPU 指南可能比通过更广泛的中心更直接。
  • Google Cloud 上的推理服务文档和示例:对于仅关注服务/部署工作流的团队,以服务为主的参考可提供更窄路径,优先考虑生产集成步骤而非训练和调试主题。
TPU Developer Hub | UStack