跳转至

产品架构

“TensorStack AI 计算平台”采用云原生架构,由 AI 引擎层(AI infrastructure Engine, AIE)和 AI 基础层(AI infrastructure Base, AIB)组成,为上层 AI 应用和底层 AI 算力建立有机连接,提供先进、可扩展的 AI 基础设施能力。

通过先进的架构和系统服务,“TensorStack AI 计算平台”隐藏了复杂的分布式、异构计算环境下的技术细节,提高了抽象层次,为 AI 领域的各种计算提供了针对性的支持,极大地提升了 AI 技术研究、开发、应用的工作效率。

TensorStack AI Platform Architecture
Fig. 1 - “TensorStack AI 计算平台”架构

基础层

AI 基础层提供集群计算抽象和多种系统服务,保障 AI 计算任务的高效、可靠、安全运行 。

  • 集群调度器(Scheduler)高效匹配计算任务和计算资源,包含多种高级调度策略和机制,例如 Queue、优先级、资源抢占、资源配额、应用特性感知等。
  • 并行计算任务支持(Jobs)提供 API 使得各种类型的大规模 AI 计算可以方便的被开发、定义、运行、调试和管理。API 采用云原生方式,包含对 Big Data Processing、模型分布并行式训练、MPI 并行计算作业、通用并行计算作业等的支持。
  • 工作流(Workflow)支持用户定制多步骤复杂计算图(DAG)。
  • 安全访问控制(Security)保护平台的系统服务和用户计算负载的安全,提供对资源访问的身份认证、授权和审计。
  • 监控和告警(Monitoring/Alerting)提供对计算任务的日志和运行指标的全面收集和存储;支持定制告警规则、交互式查询、可视化展示等功能,达到对平台计算任务的全面观测和管理。

引擎层

AI 引擎层包含多种工具和服务,对 AI 研究、开发、部署提供全流程支持。例如,模型构建模块提供了 Notebook、AutoTune、TrainingJob 等工具,可完成交互式开发、模型调参、运行分布式训练作业等功能。

扩展能力

平台提供了强大的扩展能力,以适应不断变化的计算环境和计算任务。例如,针对算力资源,平台提供对 GPU 等设备的扩展支持能力,方便用户使用多家厂商的 GPU 产品;针对不断创新的 AI 计算框架,平台提供定义新的计算任务 API 和集成的能力。