功能特性¶

集群管理¶

提供全面的计算集群管理功能，支持制定和实施集群使用和调度策略；可视化的界面提供 CPU、Memory、GPU、网络、存储等硬件资源监控，及各种计算任务的监控和管理等。

数据集仓库服务，可以部署在组织内部供用户下载、上传、更新海量数据集，并且支持类 Git 数据版本管理，提供 S3 接口。

全面管理计算任务元数据，提供实验管理服务，包含实验追踪、实验数据存储、实验数据可视化分析和实验对比等功能，可靠地追踪 AI 模型生产过程，集中管理访问控制，实现可追溯的实验历史记录，满足 AI 领域系统化分析和管理实验数据的需求。

机器学习模型仓库服务，可以部署在公网或组织内部供用户下载、上传、搜索、分享机器学习模型。作为模型开发环境和模型生产部署的桥梁，模型管理服务极大提高了将模型投入生产的效率，同时还提供用户管理、访问控制、活动审计等高级安全特性，支持灵活且全面的企业级安全策略。

可视化的在线开发环境，提供 Notebook、TrainingJob、AutoTune 等多项功能。

在线开发环境 Notebook 基于 JupyterLab 并且集成 TensorStack 扩展插件，支持全流程完成 AI 的开发和部署；用户还可以方便地使用 TensorBoard 进行模型的可视化展示和研究，快速将 Notebook 转换为工作流服务的任务节点，实现计算任务的组合执行等。

此外，用户也可以使用本地的 Terminal 或 VS Code 通过 SSH 远程连接到 Notebook 从而使用平台资源进行开发。

TrainingJob 作为云原生大规模分布式训练系统，对 TensorFlow、PyTorch、XGBoost 等机器学习框架和 MPI 高性能并行计算框架提供完善的支持，降低可靠运行大规模计算任务的难度：

自动化机器学习工具 AutoTune 致力于自动化 AI 模型的构建，在降低 AI 应用的开发门槛和人力成本的同时实现更好的性能。

快速部署机器学习模型为推理服务，支持负载均衡、流量分发、动态伸缩、模型版本发布策略以及多种模型存储方式。

代码包 (Codepack）系统提供一体化管理 AI 项目能力，实现精确复刻、快速迭代、团队协作等功能。

TensorStack AI 提供多个命令行工具，以便于用户在终端环境中操作平台资源或编写程序化脚本；平台提供的 Python SDK 则对数据管理、模型构建、实验管理、模型部署等功能提供了支持。