跳转至

功能特性

集群管理

提供全面的计算集群管理功能,支持制定和实施集群使用和调度策略;可视化的界面提供 CPU、Memory、GPU、网络、存储等硬件资源监控,及各种计算任务的监控和管理等。

AI 开发和部署

数据集管理

数据集仓库服务,可以部署在组织内部供用户下载、上传、更新海量数据集,并且支持类 Git 数据版本管理,提供 S3 接口。

实验管理

全面管理计算任务元数据,提供实验管理服务,包含实验追踪、实验数据存储、实验数据可视化分析和实验对比等功能,可靠地追踪 AI 模型生产过程,集中管理访问控制,实现可追溯的实验历史记录,满足 AI 领域系统化分析和管理实验数据的需求。

模型管理

机器学习模型仓库服务,可以部署在公网或组织内部供用户下载、上传、搜索、分享机器学习模型。作为模型开发环境和模型生产部署的桥梁,模型管理服务极大提高了将模型投入生产的效率,同时还提供用户管理、访问控制、活动审计等高级安全特性,支持灵活且全面的企业级安全策略。

模型构建

可视化的在线开发环境,提供 Notebook、TrainingJob、AutoTune 等多项功能。

在线开发

在线开发环境 Notebook 基于 JupyterLab 并且集成 TensorStack 扩展插件,支持全流程完成 AI 的开发和部署;用户还可以方便地使用 TensorBoard 进行模型的可视化展示和研究,快速将 Notebook 转换为工作流服务的任务节点,实现计算任务的组合执行等。

此外,用户也可以使用本地的 Terminal 或 VS Code 通过 SSH 远程连接到 Notebook 从而使用平台资源进行开发。

分布式训练

TrainingJob 作为云原生大规模分布式训练系统,对 TensorFlow、PyTorch、XGBoost 等机器学习框架和 MPI 高性能并行计算框架提供完善的支持,降低可靠运行大规模计算任务的难度:

  • 高度可扩展的架构,支持简单地将小规模计算拓展到上千节点的大规模分布式计算。
  • 高容错性,能够自动恢复重启失败任务。
  • 支持计算资源配额,保障集群资源公平分配。

自动化机器学习

自动化机器学习工具 AutoTune 致力于自动化 AI 模型的构建,在降低 AI 应用的开发门槛和人力成本的同时实现更好的性能。

模型部署

快速部署机器学习模型为推理服务,支持负载均衡、流量分发、动态伸缩、模型版本发布策略以及多种模型存储方式。

Codepack

代码包 (Codepack)系统提供一体化管理 AI 项目能力,实现精确复刻、快速迭代、团队协作等功能。

CLI 和 SDK 支持

TensorStack AI 提供多个命令行工具,以便于用户在终端环境中操作平台资源或编写程序化脚本;平台提供的 Python SDK 则对数据管理、模型构建、实验管理、模型部署等功能提供了支持。