概述

产品介绍

“TensorStack AI 计算平台” 是面向 AI 集群的系统软件,针对 AI 集群的硬件架构和 AI 领域的计算任务的特性和需求,提供稳定、可扩展的 AI 技术平台能力,服务 AI 技术研发和规模化落地。

AI 集群的拥有者可以使用这套软件,构建自己的 “AI 私有云” 或 “AI 混合云” 基础设施服务。

通过先进的架构和丰富的 API + 系统服务,“TensorStack AI 计算平台” 合理地隐藏了分布式并行、异构计算、加速计算等技术的复杂细节,提高了抽象层次,并为 AI 领域的各种计算提供了针对性的支持,极大地提升了 AI 技术研究、开发、应用的工作效率。

t9k-arch
图 1:TensorStack AI 计算平台采用云原生架构,由 AI 引擎层(AI Engine, AIE)和 AI 基础层(AI Base, AIB)组成,为上层 AI 应用和底层 AI 算力建立有机连接,提供先进、可扩展的 AI 系统层面的能力。

基本流程

用户使用 “TensorStack AI 计算平台” 的基本交互流程:

  1. 管理员 - 创建 - 项目(Project)并设定项目管理员。
    • 用户以项目管理员或者普通成员的方式使用项目。
    • 用户可以同时使用多个项目。
  2. 管理员 - 创建 - 用户帐户
  3. 用户 - 使用其帐户 - 登录系统。
  4. 用户 - 在项目中 - 完成工作(创建各种计算任务)。
t9k-flow
图 2:用户登陆系统后在 “项目” 中创建计算任务以完成各种工作。

使用功能

用户主要通过创建各种类型 CRD 的实例(instance)使用产品的功能。例如:

  • 创建一个 Notebook CRD 的实例,以使用 Jupyter Notebook;
  • 为了使用 DeepSpeed 进行大规模并行的 LLM 预训练,创建一个 DeepSpeedJob CRD 的实例;
  • 为了部署一个模型推理服务,并支持服务规模的自动伸缩,创建一个 MLService CRD 的实例;
use-t9k
图 3:用户可以通过命令行接口(CLI) 或者可视化的 Web 页面(UI) 创建这些 CRD 的实例。

CLI

CRD 实例(instance)的创建总是可以通过命令行实现,例如使用 kubectl 可以方便地创建一个 Notebook:

# create a notebook
kubectle create -f notebook-tutorial.yaml 
notebook-tutorial.yaml
# notebook-tutorial.yaml
apiVersion: tensorstack.dev/v1beta1
kind: Notebook
metadata:
  name: tutorial
spec:
  type: jupyter
  template:
    spec:
      containers:
        - name: notebook
          image: t9kpublic/torch-2.1.0-notebook:1.77.1
          volumeMounts:
            - name: workingdir
              mountPath: /t9k/mnt
          resources:
            requests:
              cpu: '8'
              memory: 16Gi
              nvidia.com/gpu: 1
            limits:
              cpu: '16'
              memory: 32Gi
              nvidia.com/gpu: 1
      volumes:
        - name: workingdir
          persistentVolumeClaim:
            claimName: tutorial

UI

对于很多 CRD,TensorStack 的 Web 控制台(console)提供了通过表单(form)创建其实例的方式。

例如,可使用如下表单创建 Notebook 实例:

create-notebook-detail
图 4:使用 UI 创建 Notebook。

下一步

  • 跟从快速开始的内容,快速完成基本的体验。
  • 阅读 AI 开发和应用章节,以学习 AI 开发相关的概念。
  • 阅读背景,了解产品的技术架构和设计思路等。