TensorBoard

TensorBoard 是一款专为深度学习项目设计的可视化工具套件,主要用于监控和分析深度学习模型的训练过程。它能够实时展示模型训练中的各种指标,如损失函数、准确率、梯度分布等,帮助开发者直观地了解模型的性能和训练进展。TensorBoard 还提供了模型结构可视化功能,使用户能够清晰地查看复杂神经网络的架构。

tensorboard-official

使用方法

待 App 就绪后,点击右侧的 进入网页 UI,查看可视化数据。

tensorboard

对于 TensorFlow 框架,记录各种类型数据和使用网页 UI 的方法请参阅 TensorBoard 指南

对于 PyTorch 框架,记录各种类型数据和使用网页 UI 的方法请参阅:

配置和使用说明

数据源

App 支持 PVC 和 S3 两种数据源,配置时必须且只能选择其中一种。

如使用 PVC 作为数据源,将 logDir.pvc[0].namelogDir.pvc[0].subPath 字段的值分别设为 PVC 的名称和目录,位于该目录及其子目录下的所有 tfevents 文件都将被可视化展示。

下面的配置示例可视化展示 PVC tutorialtrain/logs 目录下的所有 tfevents 文件:

logDir:
  pvc:
    - name: tutorial
      subPath:
        - "train/logs"

...
pvc

如使用 S3 作为数据源,将 logDir.s3️.secretRef.name 字段的值设为 S3-env 类型的 Secret 的名称,将 logDir.s3️.uri 字段的值设为以 / 结尾的 S3 URL,所有以该 URL 作为前缀的 tfevents 文件都将被可视化展示。

下面的配置示例可视化展示 URL 匹配 s3://folder/** 的所有 tfevents 文件,由 Secret my-s3-env 提供访问凭证:

logDir:
  s3:
    secretRef:
      name: "my-s3-env"
    uri:
      - "s3://folder/"

...
pvc

下一步

在下列任务中学习使用 TensorBoard App: