进行数据并行训练

本教程演示使用 PyTorchTrainingJob 对 PyTorch 模型进行多工作器同步训练（使用 torch.nn.parallel.DistributedDataParallel 分布式数据并行模块）。本教程对应示例使用 PyTorchTrainingJob 进行数据并行训练。

本教程的 Apps 架构如下图所示：

准备工作

创建一个名为 tutorial、大小 1 Gi 的 PVC，然后安装一个同样名为 tutorial 的 JupyterLab App 挂载该 PVC，镜像和资源不限。

进入 JupyterLab，启动一个终端，执行以下命令以克隆 t9k/tutorial-examples 仓库：

cd ~
git clone https://github.com/t9k/tutorial-examples.git

启动训练（创建 PyTorchTrainingJob）

安装一个 Job Manager App（如有 Job Manager 则直接复用），进入 Job Manager 的网页 UI（控制台）。在左侧导航菜单点击 Job 进入 Job 管理页面，这里展示了所有已创建的 Job。点击右上角的创建，然后点击 PyTorch 进入 PyTorchTrainingJob 创建页面：

在 PyTorchTrainingJob 创建页面，填写配置如下：

基本信息部分：
- 名称填写 torch-mnist-trainingjob
- 打开使用 TorchRun，最大重启次数填写 3，单节点最大进程数填写 4
worker 部分：
- 镜像填写 t9kpublic/pytorch-1.13.0:sdk-0.5.2
- 参数填写 torch_mnist_trainingjob.py "--save_path=model_state_dict.pt" "--log_dir=log" "--backend=nccl"
- CPU 上限和内存上限分别填写 8 和 16Gi，CPU 请求值和内存请求值分别填写 4 和 8Gi
- GPU 选择 nvidia.com/gpu，GPU Value 填写 4
- 工作目录填写 /t9k/mnt/tutorial-examples/job/pytorchtrainingjob/ddp
- 添加一个存储卷，PersistentVolumeClaim 选择 tutorial，绑定名称填写 data，绑定路径填写 /t9k/mnt

然后点击创建：

注意

目前创建页面暂不支持 Memory 类型的卷，直接创建可能报错 Signal 7 (SIGBUS) received by PID x（共享内存不足）。

临时的解决方案是点击预览 YAML，将：

              volumeMounts:
                - mountPath: /t9k/mnt
                  name: data
          volumes:
            - name: data
              persistentVolumeClaim:
                claimName: tutorial

替换为：

              volumeMounts:
                - mountPath: /t9k/mnt
                  name: data
                - mountPath: /dev/shm
                  name: dshm
          volumes:
            - name: data
              persistentVolumeClaim:
                claimName: tutorial
            - name: dshm
              emptyDir:
                medium: Memory

再点击创建。