1. 导言
  2. 概述
  3. 1. 快速入门
    1. 1.1. 训练你的第一个模型
    2. 1.2. 进行并行训练
    3. 1.3. 部署模型
  4. 2. AI 开发和应用
    1. 2.1. 模型构建
      1. 2.1.1. Notebook
      2. 2.1.2. TensorBoard
      3. 2.1.3. AutoTune
        1. 2.1.3.1. AutoTuneExperiment
        2. 2.1.3.2. 搜索空间
        3. 2.1.3.3. 超参数调优算法
    2. 2.2. 模型部署
      1. 2.2.1. SimpleMLService
      2. 2.2.2. MLService
        1. 2.2.2.1. 日志收集
      3. 2.2.3. 模型存储
    3. 2.3. Job
      1. 2.3.1. GenericJob
      2. 2.3.2. PyTorchTrainingJob
      3. 2.3.3. TensorFlowTrainingJob
      4. 2.3.4. DeepSpeedJob
      5. 2.3.5. ColossalAIJob
      6. 2.3.6. XGBoostTrainingJob
      7. 2.3.7. MPIJob
      8. 2.3.8. BeamJob
    4. 2.4. 资产管理
    5. 2.5. 实验管理
  5. 3. 账户和安全
    1. 3.1. 账户
    2. 3.2. 项目
  6. 4. 计算资源
    1. 4.1. 使用 GPU
    2. 4.2. 资源配额
    3. 4.3. 队列
    4. 4.4. PodGroup
    5. 4.5. 资源回收
    6. 4.6. 资源使用监控
  7. 5. 存储
    1. 5.1. PVC
    2. 5.2. PVC 快照
    3. 5.3. StorageShim
    4. 5.4. Explorer
  8. 6. 辅助
    1. 6.1. Secret
    2. 6.2. ConfigMap
    3. 6.3. Pod
    4. 6.4. ImageBuilder
  9. 7. 工作流
    1. 7.1. WorkflowTemplate
    2. 7.2. WorkflowRun
    3. 7.3. CronWorkflowRun
    4. 7.4. WorkflowTrigger
  10. 8. 操作指南
    1. 8.1. 使用模型构建控制台
      1. 8.1.1. 创建 Notebook
      2. 8.1.2. 使用 Notebook
      3. 8.1.3. 通过 SSH 远程使用 Notebook
      4. 8.1.4. 创建 TensorBoard
      5. 8.1.5. 构建镜像
      6. 8.1.6. 调试镜像
      7. 8.1.7. 管理 PVC
      8. 8.1.8. 使用 Explorer
      9. 8.1.9. 使用 StorageShim 适配 S3 服务
      10. 8.1.10. 管理 Secret
      11. 8.1.11. 管理 ConfigMap
    2. 8.2. 运行模型训练
      1. 8.2.1. 使用 PyTorchTrainingJob 进行数据并行训练
      2. 8.2.2. 使用 PyTorchTrainingJob 进行参数服务器训练
      3. 8.2.3. 使用 TensorFlowTrainingJob 进行数据并行训练
      4. 8.2.4. 使用 TensorFlowTrainingJob 进行参数服务器训练
      5. 8.2.5. 使用 Horovod 进行 PyTorch 模型的数据并行训练
      6. 8.2.6. 使用 Horovod 进行 Keras 模型的数据并行训练
      7. 8.2.7. 使用 Profiler 分析模型训练性能
      8. 8.2.8. 调试 Job
    3. 8.3. 进行超参数优化
      1. 8.3.1. 使用 AutoTune 进行超参数优化
    4. 8.4. 部署推理服务
      1. 8.4.1. 简单推理服务
      2. 8.4.2. 推理服务
      3. 8.4.3. 包含 Transformer 的推理服务
    5. 8.5. 管理 AI 资产
      1. 8.5.1. 操作文件夹、模型和数据集
      2. 8.5.2. 通过 S3 访问模型和数据集
      3. 8.5.3. 修改文件夹、模型和数据集的基本信息
      4. 8.5.4. 操作模型和数据集的分支、tag 和 commit
      5. 8.5.5. 操作模型和数据集的对象
    6. 8.6. 追踪模型训练
      1. 8.6.1. 在实验管理控制台查看和管理数据
      2. 8.6.2. 使用 Python SDK 记录和上传数据
      3. 8.6.3. 单设备训练场景
      4. 8.6.4. 分布式训练场景
      5. 8.6.5. 在实验管理控制台查看 AutoTune
    7. 8.7. 构建自动化工作流
      1. 8.7.1. 创建工作流的基本单元
      2. 8.7.2. 创建执行各类任务的工作流单元
      3. 8.7.3. 创建存在依赖关系的工作流
      4. 8.7.4. 建立从数据采样到模型导出的自动化工作流
    8. 8.8. 调度工作负载
      1. 8.8.1. 使用 Queue
      2. 8.8.2. 使用 PodGroup
    9. 8.9. 使用集群存储
      1. 8.9.1. 上传和下载文件
    10. 8.10. 管理个人账户
      1. 8.10.1. 生成 API Key
      2. 8.10.2. 使用 API Key
      3. 8.10.3. 添加项目成员
    11. 8.11. 小技巧
  11. 9. 命令行工具和 SDK
    1. 9.1. 命令行工具:t9k
      1. 9.1.1. 用户指南
      2. 9.1.2. 命令
    2. 9.2. 命令行工具:t9k-pf
      1. 9.2.1. 用户指南
      2. 9.2.2. 命令
    3. 9.3. Python SDK:t9k
      1. 9.3.1. 用户指南
      2. 9.3.2. API
        1. 9.3.2.1. t9k.ah
        2. 9.3.2.2. t9k.ah.core
        3. 9.3.2.3. t9k.config
        4. 9.3.2.4. t9k.em
        5. 9.3.2.5. t9k.tuner
    4. 9.4. Codepack
      1. 9.4.1. 概念
      2. 9.4.2. Codepack 定义
      3. 9.4.3. 命令行工具
      4. 9.4.4. 示例
  12. 10. 参考
    1. 10.1. 术语表
    2. 10.2. API 参考
      1. 10.2.1. Project
      2. 10.2.2. GenericJob
      3. 10.2.3. TensorFlowTrainingJob
      4. 10.2.4. PyTorchTrainingJob
      5. 10.2.5. XGBoostTrainingJob
      6. 10.2.6. ColossalAIJob
      7. 10.2.7. DeepSpeedJob
      8. 10.2.8. MPIJob
      9. 10.2.9. BeamJob
      10. 10.2.10. TensorBoard
      11. 10.2.11. Notebook
      12. 10.2.12. AutoTuneExperiment
      13. 10.2.13. Explorer
      14. 10.2.14. StorageShim
      15. 10.2.15. Scheduler
      16. 10.2.16. Workflow
      17. 10.2.17. WorkflowTrigger
      18. 10.2.18. SimpleMLService
      19. 10.2.19. MLService
    3. 10.3. 标准镜像
  13. 11. 示例
    1. 11.1. 启动 LLM 大规模预训练
    2. 11.2. 启动 LLM 微调
    3. 11.3. 使用 FastChat 部署 LLM 推理服务
    4. 11.4. 使用 vLLM 部署 LLM 推理服务
    5. 11.5. 使用 Triton 部署 Hugging Face 模型(Python 后端)
    6. 11.6. 使用 Tensorizer 加速模型部署
    7. 11.7. 使用 AutoGen 构建下一代 LLM 应用
    8. 11.8. 部署对话式搜索引擎
    9. 11.9. 部署 Stable Diffusion 图像生成模型
    10. 11.10. 车道检测
  14. 12. 集成
    1. 12.1. Label Studio
    2. 12.2. 向量数据库:Qdrant
    3. 12.3. 向量数据库:PostgreSQL + pgvector
  15. 附录1:背景
latest v20240206

TensorStack AI 计算平台 - 用户使用手册 - v20240206

管理 AI 资产

这一部分演示如何使用 AsestHub 上传、使用和分享模型和数据集。

  • 操作文件夹、模型和数据集
  • 通过 S3 访问模型和数据集
  • 修改文件夹、模型和数据集的基本信息
  • 操作模型和数据集的分支、tag 和 commit
  • 操作模型和数据集的对象