导言
概述
1.
快速入门
1.1.
训练你的第一个模型
1.2.
进行并行训练
1.3.
部署模型
2.
AI 开发和应用
2.1.
模型构建
2.1.1.
Notebook
2.1.2.
TensorBoard
2.1.3.
AutoTune
2.1.3.1.
AutoTuneExperiment
2.1.3.2.
搜索空间
2.1.3.3.
超参数调优算法
2.2.
模型部署
2.2.1.
SimpleMLService
2.2.2.
MLService
2.2.2.1.
日志收集
2.2.3.
模型存储
2.3.
Job
2.3.1.
GenericJob
2.3.2.
PyTorchTrainingJob
2.3.3.
TensorFlowTrainingJob
2.3.4.
DeepSpeedJob
2.3.5.
ColossalAIJob
2.3.6.
XGBoostTrainingJob
2.3.7.
MPIJob
2.3.8.
BeamJob
2.4.
资产管理
2.5.
实验管理
3.
账户和安全
3.1.
账户
3.2.
项目
4.
计算资源
4.1.
使用 GPU
4.2.
资源配额
4.3.
队列
4.4.
PodGroup
4.5.
资源回收
4.6.
资源使用监控
5.
存储
5.1.
PVC
5.2.
PVC 快照
5.3.
StorageShim
5.4.
Explorer
6.
辅助
6.1.
Secret
6.2.
ConfigMap
6.3.
Pod
6.4.
ImageBuilder
7.
工作流
7.1.
WorkflowTemplate
7.2.
WorkflowRun
7.3.
CronWorkflowRun
7.4.
WorkflowTrigger
8.
操作指南
8.1.
使用模型构建控制台
8.1.1.
创建 Notebook
8.1.2.
使用 Notebook
8.1.3.
通过 SSH 远程使用 Notebook
8.1.4.
创建 TensorBoard
8.1.5.
构建镜像
8.1.6.
调试镜像
8.1.7.
管理 PVC
8.1.8.
使用 Explorer
8.1.9.
使用 StorageShim 适配 S3 服务
8.1.10.
管理 Secret
8.1.11.
管理 ConfigMap
8.2.
运行模型训练
8.2.1.
使用 PyTorchTrainingJob 进行数据并行训练
8.2.2.
使用 PyTorchTrainingJob 进行参数服务器训练
8.2.3.
使用 TensorFlowTrainingJob 进行数据并行训练
8.2.4.
使用 TensorFlowTrainingJob 进行参数服务器训练
8.2.5.
使用 Horovod 进行 PyTorch 模型的数据并行训练
8.2.6.
使用 Horovod 进行 Keras 模型的数据并行训练
8.2.7.
使用 Profiler 分析模型训练性能
8.2.8.
调试 Job
8.3.
进行超参数优化
8.3.1.
使用 AutoTune 进行超参数优化
8.4.
部署推理服务
8.4.1.
简单推理服务
8.4.2.
推理服务
8.4.3.
包含 Transformer 的推理服务
8.5.
管理 AI 资产
8.5.1.
操作文件夹、模型和数据集
8.5.2.
通过 S3 访问模型和数据集
8.5.3.
修改文件夹、模型和数据集的基本信息
8.5.4.
操作模型和数据集的分支、tag 和 commit
8.5.5.
操作模型和数据集的对象
8.6.
追踪模型训练
8.6.1.
在实验管理控制台查看和管理数据
8.6.2.
使用 Python SDK 记录和上传数据
8.6.3.
单设备训练场景
8.6.4.
分布式训练场景
8.6.5.
在实验管理控制台查看 AutoTune
8.7.
构建自动化工作流
8.7.1.
创建工作流的基本单元
8.7.2.
创建执行各类任务的工作流单元
8.7.3.
创建存在依赖关系的工作流
8.7.4.
建立从数据采样到模型导出的自动化工作流
8.8.
调度工作负载
8.8.1.
使用 Queue
8.8.2.
使用 PodGroup
8.9.
使用集群存储
8.9.1.
上传和下载文件
8.10.
管理个人账户
8.10.1.
生成 API Key
8.10.2.
使用 API Key
8.10.3.
添加项目成员
8.11.
小技巧
9.
命令行工具和 SDK
9.1.
命令行工具:t9k
9.1.1.
用户指南
9.1.2.
命令
9.2.
命令行工具:t9k-pf
9.2.1.
用户指南
9.2.2.
命令
9.3.
Python SDK:t9k
9.3.1.
用户指南
9.3.2.
API
9.3.2.1.
t9k.ah
9.3.2.2.
t9k.ah.core
9.3.2.3.
t9k.config
9.3.2.4.
t9k.em
9.3.2.5.
t9k.tuner
9.4.
Codepack
9.4.1.
概念
9.4.2.
Codepack 定义
9.4.3.
命令行工具
9.4.4.
示例
10.
参考
10.1.
术语表
10.2.
API 参考
10.2.1.
Project
10.2.2.
GenericJob
10.2.3.
TensorFlowTrainingJob
10.2.4.
PyTorchTrainingJob
10.2.5.
XGBoostTrainingJob
10.2.6.
ColossalAIJob
10.2.7.
DeepSpeedJob
10.2.8.
MPIJob
10.2.9.
BeamJob
10.2.10.
TensorBoard
10.2.11.
Notebook
10.2.12.
AutoTuneExperiment
10.2.13.
Explorer
10.2.14.
StorageShim
10.2.15.
Scheduler
10.2.16.
Workflow
10.2.17.
WorkflowTrigger
10.2.18.
SimpleMLService
10.2.19.
MLService
10.3.
标准镜像
11.
示例
11.1.
启动 LLM 大规模预训练
11.2.
启动 LLM 微调
11.3.
使用 FastChat 部署 LLM 推理服务
11.4.
使用 vLLM 部署 LLM 推理服务
11.5.
使用 Triton 部署 Hugging Face 模型(Python 后端)
11.6.
使用 Tensorizer 加速模型部署
11.7.
使用 AutoGen 构建下一代 LLM 应用
11.8.
部署对话式搜索引擎
11.9.
部署 Stable Diffusion 图像生成模型
11.10.
车道检测
12.
集成
12.1.
Label Studio
12.2.
向量数据库:Qdrant
12.3.
向量数据库:PostgreSQL + pgvector
附录1:背景
Light
Rust
Coal
Navy
Ayu
latest
v20240206
TensorStack AI 计算平台 - 用户使用手册 - v20240206
构建自动化工作流
这一部分演示如何使用
工作流
系统进行 AI 开发和实验,帮助管理 AI 项目中数据清洗、特征工程、模型训练、评估等多个步骤之间的依赖关系,确保它们以正确的顺序执行,并提高可复用性。