总览¶
“TensorStack AI 计算平台”是新一代集群计算基础设施软件,针对 AI 领域计算任务的特性和需求而设计,提供稳定、可扩展的 AI 技术平台能力,服务于 AI 技术的研究、开发和规模化应用。
产品采用云原生架构,可部署在私有裸机集群或者云端 IaaS 环境。
背景¶
AI 技术近年来发展迅速,在许多领域取得了突破性进展,国内外的先进组织都在广泛应用 AI 技术,解决前沿和重要问题,并借此建立竞争优势。
AI 开发与传统软件开发有很大不同,它基于实验,且经常需要使用分布式并行技术进行大规模计算。因此,针对 AI 这一崭新的工作范式,传统 IT 架构和工具在很大程度上不再适用。
组织要想实现将 AI 技术大规模应用到生产,并使其转化为生产力,需要创建和管理生产级 AI 应用的能力。但是,很多 AI 项目未能实际投入生产,具体原因表现在:
- 缺乏端到端开发、部署和管理规模化 AI 计算的能力。尽管有丰富的开源机器学习模型、AI 框架可供选择,但 AI 开发人员仍然面临着工具易用性不足、缺乏全栈优化等问题,进而导致生产周期长、成本高、效率低,对组织的 AI 应用形成巨大挑战。
- 缺乏现代化的 AI 基础设施。组织当前的基础设施普遍为传统 IT 应用构建,不具备支撑新型大规模 AI 计算的能力;AI 开发人员经常耗费大部分时间在非 AI 任务上,并且需要依赖其他工程团队才能完成模型的构建、训练和部署。此外,随着混合云架构的使用,AI 工程的复杂度进一步增加。
功能概览¶
- AI 研究、开发、部署的全流程支持,包括数据准备、模型构建、模型训练和调优、实验管理、模型部署、自动化工作流等;并且可以方便地集成第三方工具和服务。
- “面向 AI 领域”的集群计算全面支持,包括分布式并行任务抽象、复杂工作流管理、资源池化、高级的调度策略、安全策略等。
- 现代化的运维系统,保障集群和计算任务的长期可靠运行。