跳转至

总览

“TensorStack AI 计算平台”是新一代集群计算基础设施软件,针对 AI 领域计算任务的特性和需求而设计,提供稳定、可扩展的 AI 技术平台能力,服务于 AI 技术的研究、开发和规模化应用。

产品采用云原生架构,可部署在私有裸机集群或者云端 IaaS 环境。

背景

AI 技术近年来发展迅速,在许多领域取得了突破性进展,国内外的先进组织都在广泛应用 AI 技术,解决前沿和重要问题,并借此建立竞争优势。

AI 开发与传统软件开发有很大不同,它基于实验,且经常需要使用分布式并行技术进行大规模计算。因此,针对 AI 这一崭新的工作范式,传统 IT 架构和工具在很大程度上不再适用。

组织要想实现将 AI 技术大规模应用到生产,并使其转化为生产力,需要创建和管理生产级 AI 应用的能力。但是,很多 AI 项目未能实际投入生产,具体原因表现在:

  • 缺乏端到端开发、部署和管理规模化 AI 计算的能力。尽管有丰富的开源机器学习模型、AI 框架可供选择,但 AI 开发人员仍然面临着工具易用性不足、缺乏全栈优化等问题,进而导致生产周期长、成本高、效率低,对组织的 AI 应用形成巨大挑战。
  • 缺乏现代化的 AI 基础设施。组织当前的基础设施普遍为传统 IT 应用构建,不具备支撑新型大规模 AI 计算的能力;AI 开发人员经常耗费大部分时间在非 AI 任务上,并且需要依赖其他工程团队才能完成模型的构建、训练和部署。此外,随着混合云架构的使用,AI 工程的复杂度进一步增加。

功能概览

function-full
Fig. 1 - “TensorStack AI 计算平台”功能
  • AI 研究、开发、部署的全流程支持,包括数据准备、模型构建、模型训练和调优、实验管理、模型部署、自动化工作流等;并且可以方便地集成第三方工具和服务。
  • “面向 AI 领域”的集群计算全面支持,包括分布式并行任务抽象、复杂工作流管理、资源池化、高级的调度策略、安全策略等。
  • 现代化的运维系统,保障集群和计算任务的长期可靠运行。