概述
1.
快速开始
1.1.
训练你的第一个模型
1.2.
进行并行训练
1.3.
部署模型
2.
Apps
2.1.
JupyterLab
2.2.
Code Server
2.3.
RStudio
2.4.
Terminal
2.5.
File Browser
2.6.
TensorBoard
2.7.
Virtual Machine
2.8.
Job Manager
2.9.
Service Manager
2.10.
Workflow
2.11.
AutoTune
2.12.
Argo Workflows
3.
APIs
3.1.
存储
3.1.1.
PVC
3.1.2.
StorageShim
3.1.3.
PVC 快照
3.2.
网络服务
3.2.1.
Service
3.2.2.
Ingress
3.2.3.
Gateway API
3.3.
辅助
3.3.1.
Secret
3.3.2.
ConfigMap
3.3.3.
ServiceAccountToken
3.4.
T9k Job
3.4.1.
GenericJob
3.4.2.
PyTorchTrainingJob
3.4.3.
TensorFlowTrainingJob
3.4.4.
DeepSpeedJob
3.4.5.
ColossalAIJob
3.4.6.
XGBoostTrainingJob
3.4.7.
MPIJob
3.4.8.
BeamJob
3.5.
T9k Service
3.5.1.
SimpleMLService
3.5.2.
MLService
3.5.2.1.
日志收集
3.5.3.
模型存储
3.6.
工作流
3.6.1.
WorkflowTemplate
3.6.2.
WorkflowRun
3.6.3.
CronWorkflowRun
3.6.4.
WorkflowTrigger
3.7.
AutoTuneExperiment
3.8.
ImageBuilder
3.9.
DataCube
4.
计算资源
4.1.
调度器
4.1.1.
kube-scheduler
4.2.
GPU 使用
4.3.
资源使用监控
5.
账户和安全
5.1.
组织
5.2.
账户
5.3.
项目
5.4.
告警通知
5.5.
API Key
6.
操作指南
6.1.
User Console 首页
6.2.
管理 App
6.2.1.
安装 App
6.2.2.
卸载 App
6.2.3.
查看 App 详情
6.3.
管理存储、网络服务和辅助资源
6.3.1.
管理 PVC
6.3.2.
创建 StorageShim
6.3.3.
查看 Service
6.3.4.
查看 Ingress
6.3.5.
管理 Secret
6.3.5.1.
SSH 场景
6.3.5.2.
S3 场景
6.3.6.
管理 ConfigMap
6.4.
设置账户
6.4.1.
账户信息
6.4.2.
项目管理
6.4.3.
安全设置
6.4.4.
查看账单
6.4.5.
告警通知
6.5.
训练模型
6.5.1.
进行数据并行训练
6.5.2.
进行 LLM 大规模预训练
6.5.3.
分析性能
6.5.4.
指令微调 LLM
6.6.
部署模型推理服务
6.6.1.
部署 PyTorch 模型
6.6.2.
部署 LLM 推理服务和聊天服务
6.7.
专题
6.7.1.
上传和下载文件
7.
命令行工具和 SDK
7.1.
命令行工具:t9k-pf
7.1.1.
用户指南
7.1.2.
命令
8.
参考
8.1.
常见问题
8.1.1.
App 使用中的常见问题
8.1.2.
IDE 使用中的常见问题
8.2.
API 参考
8.2.1.
Project
8.2.2.
GenericJob
8.2.3.
TensorFlowTrainingJob
8.2.4.
PyTorchTrainingJob
8.2.5.
XGBoostTrainingJob
8.2.6.
ColossalAIJob
8.2.7.
DeepSpeedJob
8.2.8.
MPIJob
8.2.9.
BeamJob
8.2.10.
TensorBoard
8.2.11.
Notebook
8.2.12.
AutoTuneExperiment
8.2.13.
Explorer
8.2.14.
StorageShim
8.2.15.
Scheduler
8.2.16.
Workflow
8.2.17.
WorkflowTrigger
8.2.18.
SimpleMLService
8.2.19.
MLService
8.2.20.
VirtualServer
8.2.21.
DataCube
8.2.22.
ServiceAccountToken
Light
Rust
Coal
Navy
Ayu
latest
TensorStack AI 计算平台 - User Console 用户手册
训练模型
这一部分的任务围绕深度学习模型的训练展开。通过这些任务,你将能够体验平台在模型训练领域的强大功能,具体包括:
使用平台提供的
Job
API,在多种深度学习框架或分布式训练框架下进行并行训练
执行少数几行命令即可简单快速地启动训练任务
通过可视化界面查看训练信息,实时监控训练进程和指标
运用各种并行策略,高效分配计算资源,并且容易扩大规模
使用 Job 的重启机制显著提升训练的故障容错能力
分析性能以识别训练代码中的性能瓶颈和优化机会