功能特性¶
集群管理¶
提供全面的计算集群管理功能,支持制定和实施集群使用和调度策略;可视化的界面提供 CPU、Memory、GPU、网络、存储等硬件资源监控,及各种计算任务的监控和管理等。
AI 开发和部署¶
数据集管理¶
数据集仓库服务,可以部署在组织内部供用户下载、上传、更新海量数据集,并且支持类 Git 数据版本管理,提供 S3 接口。
实验管理¶
全面管理计算任务元数据,提供实验管理服务,包含实验追踪、实验数据存储、实验数据可视化分析和实验对比等功能,可靠地追踪 AI 模型生产过程,集中管理访问控制,实现可追溯的实验历史记录,满足 AI 领域系统化分析和管理实验数据的需求。
模型管理¶
机器学习模型仓库服务,可以部署在公网或组织内部供用户下载、上传、搜索、分享机器学习模型。作为模型开发环境和模型生产部署的桥梁,模型管理服务极大提高了将模型投入生产的效率,同时还提供用户管理、访问控制、活动审计等高级安全特性,支持灵活且全面的企业级安全策略。
模型构建¶
可视化的在线开发环境,提供 Notebook、TrainingJob、AutoTune 等多项功能。
在线开发¶
在线开发环境 Notebook 基于 JupyterLab 并且集成 TensorStack 扩展插件,支持全流程完成 AI 的开发和部署;用户还可以方便地使用 TensorBoard 进行模型的可视化展示和研究,快速将 Notebook 转换为工作流服务的任务节点,实现计算任务的组合执行等。
此外,用户也可以使用本地的 Terminal 或 VS Code 通过 SSH 远程连接到 Notebook 从而使用平台资源进行开发。
分布式训练¶
TrainingJob 作为云原生大规模分布式训练系统,对 TensorFlow、PyTorch、XGBoost 等机器学习框架和 MPI 高性能并行计算框架提供完善的支持,降低可靠运行大规模计算任务的难度:
- 高度可扩展的架构,支持简单地将小规模计算拓展到上千节点的大规模分布式计算。
- 高容错性,能够自动恢复重启失败任务。
- 支持计算资源配额,保障集群资源公平分配。
自动化机器学习¶
自动化机器学习工具 AutoTune 致力于自动化 AI 模型的构建,在降低 AI 应用的开发门槛和人力成本的同时实现更好的性能。
模型部署¶
快速部署机器学习模型为推理服务,支持负载均衡、流量分发、动态伸缩、模型版本发布策略以及多种模型存储方式。
Codepack¶
代码包 (Codepack)系统提供一体化管理 AI 项目能力,实现精确复刻、快速迭代、团队协作等功能。
CLI 和 SDK 支持¶
TensorStack AI 提供多个命令行工具,以便于用户在终端环境中操作平台资源或编写程序化脚本;平台提供的 Python SDK 则对数据管理、模型构建、实验管理、模型部署等功能提供了支持。