导言
概述
1.
快速入门
1.1.
训练你的第一个模型
1.2.
进行并行训练
1.3.
部署模型
2.
AI 开发和应用
2.1.
模型构建
2.1.1.
Notebook
2.1.2.
TensorBoard
2.1.3.
AutoTune
2.1.3.1.
AutoTuneExperiment
2.1.3.2.
搜索空间
2.1.3.3.
超参数调优算法
2.2.
模型部署
2.2.1.
SimpleMLService
2.2.2.
MLService
2.2.2.1.
日志收集
2.2.3.
模型存储
2.3.
Job
2.3.1.
GenericJob
2.3.2.
PyTorchTrainingJob
2.3.3.
TensorFlowTrainingJob
2.3.4.
DeepSpeedJob
2.3.5.
ColossalAIJob
2.3.6.
XGBoostTrainingJob
2.3.7.
MPIJob
2.3.8.
BeamJob
3.
账户和安全
3.1.
账户
3.2.
项目
3.3.
告警通知
4.
计算资源
4.1.
调度器
4.1.1.
kube-scheduler
4.1.2.
T9k Scheduler
4.1.2.1.
队列
4.1.2.2.
PodGroup
4.1.2.3.
调度策略
4.2.
GPU 使用
4.3.
资源回收
4.4.
资源使用监控
5.
存储
5.1.
PVC
5.2.
PVC 快照
5.3.
StorageShim
5.4.
Explorer
6.
辅助
6.1.
Secret
6.2.
ConfigMap
6.3.
Pod
6.4.
ImageBuilder
6.5.
VirtualServer
6.6.
DataCube
6.7.
ServiceAccountToken
7.
工作流
7.1.
WorkflowTemplate
7.2.
WorkflowRun
7.3.
CronWorkflowRun
7.4.
WorkflowTrigger
8.
数据管理
8.1.
资产管理
8.2.
实验管理
9.
操作指南
9.1.
使用模型构建控制台
9.1.1.
创建 Notebook
9.1.2.
使用 Notebook
9.1.3.
通过 SSH 远程使用 Notebook
9.1.4.
创建 TensorBoard
9.1.5.
构建镜像
9.1.6.
调试镜像
9.1.7.
管理 PVC
9.1.8.
使用 Explorer
9.1.9.
使用 StorageShim 适配 S3 服务
9.1.10.
管理 Secret
9.1.11.
管理 ConfigMap
9.2.
运行模型训练
9.2.1.
使用 PyTorchTrainingJob 进行数据并行训练
9.2.2.
使用 PyTorchTrainingJob 进行参数服务器训练
9.2.3.
使用 TensorFlowTrainingJob 进行数据并行训练
9.2.4.
使用 TensorFlowTrainingJob 进行参数服务器训练
9.2.5.
使用 Horovod 进行 PyTorch 模型的数据并行训练
9.2.6.
使用 Horovod 进行 Keras 模型的数据并行训练
9.2.7.
使用 Profiler 分析模型训练性能
9.2.8.
调试 Job
9.3.
进行超参数优化
9.3.1.
使用 AutoTune 进行超参数优化
9.4.
部署推理服务
9.4.1.
简单推理服务
9.4.2.
推理服务
9.4.3.
包含 Transformer 的推理服务
9.5.
管理 AI 资产
9.5.1.
操作文件夹、模型和数据集
9.5.2.
通过 S3 访问模型和数据集
9.5.3.
修改文件夹、模型和数据集的基本信息
9.5.4.
操作模型和数据集的分支、tag 和 commit
9.5.5.
操作模型和数据集的对象
9.5.6.
从 Hugging Face 下载模型和数据集到 Asset Hub
9.6.
追踪模型训练
9.6.1.
在实验管理控制台查看和管理数据
9.6.2.
使用 Python SDK 记录和上传数据
9.6.3.
单设备训练场景
9.6.4.
分布式训练场景
9.6.5.
在实验管理控制台查看 AutoTune
9.7.
建立自动化工作流
9.7.1.
创建工作流的基本单元
9.7.2.
创建执行各类任务的工作流单元
9.7.3.
创建存在依赖关系的工作流
9.7.4.
建立从数据采样到模型导出的自动化工作流
9.8.
调度工作负载
9.8.1.
为工作负载指定队列
9.8.2.
创建和使用 PodGroup
9.9.
使用集群存储
9.9.1.
上传和下载文件
9.10.
管理个人账户
9.10.1.
生成 API Key
9.10.2.
使用 API Key
9.10.3.
添加项目成员
9.11.
管理告警信息
9.11.1.
查看告警
9.11.2.
订阅告警
9.12.
小技巧
10.
命令行工具和 SDK
10.1.
命令行工具:t9k
10.1.1.
用户指南
10.1.2.
命令
10.2.
命令行工具:t9k-pf
10.2.1.
用户指南
10.2.2.
命令
10.3.
Python SDK:t9k
10.3.1.
用户指南
10.3.2.
API
10.3.2.1.
t9k.ah
10.3.2.2.
t9k.ah.core
10.3.2.3.
t9k.config
10.3.2.4.
t9k.em
10.3.2.5.
t9k.tuner
10.4.
Codepack
10.4.1.
概念
10.4.2.
Codepack 定义
10.4.3.
命令行工具
10.4.4.
示例
11.
参考
11.1.
术语表
11.2.
API 参考
11.2.1.
Project
11.2.2.
GenericJob
11.2.3.
TensorFlowTrainingJob
11.2.4.
PyTorchTrainingJob
11.2.5.
XGBoostTrainingJob
11.2.6.
ColossalAIJob
11.2.7.
DeepSpeedJob
11.2.8.
MPIJob
11.2.9.
BeamJob
11.2.10.
TensorBoard
11.2.11.
Notebook
11.2.12.
AutoTuneExperiment
11.2.13.
Explorer
11.2.14.
StorageShim
11.2.15.
Scheduler
11.2.16.
Workflow
11.2.17.
WorkflowTrigger
11.2.18.
SimpleMLService
11.2.19.
MLService
11.2.20.
VirtualServer
11.2.21.
DataCube
11.2.22.
ServiceAccountToken
11.3.
标准镜像
附录1:背景
附录2:HyperMLService
Light
Rust
Coal
Navy
Ayu
latest
v20240206
TensorStack AI 计算平台 - 用户手册
操作指南