概述
产品介绍
“TensorStack AI 计算平台” 是面向 AI 集群的系统软件,针对 AI 集群的硬件架构和 AI 领域的计算任务的特性和需求,提供稳定、可扩展的 AI 技术平台能力,服务 AI 技术研发和规模化落地。
AI 集群的拥有者可以使用这套软件,构建自己的 “AI 私有云” 或 “AI 混合云” 基础设施服务。
通过先进的架构和丰富的 API + 系统服务,“TensorStack AI 计算平台” 合理地隐藏了分布式并行、异构计算、加速计算等技术的复杂细节,提高了抽象层次,并为 AI 领域的各种计算提供了针对性的支持,极大地提升了 AI 技术研究、开发、应用的工作效率。
基本流程
用户使用 “TensorStack AI 计算平台” 的基本交互流程:
- 管理员 - 创建 - 项目(Project)并设定项目管理员。
- 用户以项目管理员或者普通成员的方式使用项目。
- 用户可以同时使用多个项目。
- 管理员 - 创建 - 用户帐户。
- 用户 - 使用其帐户 - 登录系统。
- 用户 - 在项目中 - 完成工作(创建各种计算任务)。
使用功能
用户主要通过创建各种类型 CRD 的实例(instance)使用产品的功能。例如:
- 创建一个
Notebook
CRD 的实例,以使用 Jupyter Notebook; - 为了使用 DeepSpeed 进行大规模并行的 LLM 预训练,创建一个
DeepSpeedJob
CRD 的实例; - 为了部署一个模型推理服务,并支持服务规模的自动伸缩,创建一个
MLService
CRD 的实例;
CLI
CRD 实例(instance)的创建总是可以通过命令行实现,例如使用 kubectl
可以方便地创建一个 Notebook:
# create a notebook
kubectle create -f notebook-tutorial.yaml
notebook-tutorial.yaml
# notebook-tutorial.yaml
apiVersion: tensorstack.dev/v1beta1
kind: Notebook
metadata:
name: tutorial
spec:
type: jupyter
template:
spec:
containers:
- name: notebook
image: t9kpublic/torch-2.1.0-notebook:1.77.1
volumeMounts:
- name: workingdir
mountPath: /t9k/mnt
resources:
requests:
cpu: '8'
memory: 16Gi
nvidia.com/gpu: 1
limits:
cpu: '16'
memory: 32Gi
nvidia.com/gpu: 1
volumes:
- name: workingdir
persistentVolumeClaim:
claimName: tutorial
UI
对于很多 CRD,TensorStack 的 Web 控制台(console)提供了通过表单(form)创建其实例的方式。
例如,可使用如下表单创建 Notebook 实例: