跳转至

产品优势

1. 先进的 AI 集群管理能力

简化集群的配置和管理,增强集群资源使用的可见性,提高资源使用效率;提供更简单、更高效、更灵活地方式使用和管理 AI 计算集群。

“TensorStack AI 计算平台”的计算抽象能力+高级调度功能,连接 AI 工作负载与底层计算资源,并通过高效、灵活的调度机制和策略,优化地运行各种 AI 负载,最大化资源利用。包括:

  • 根据业务目标灵活定义和设置调度策略,通过实时监控、队列、优先级和自动抢占作业等机制掌控集群资源使用;
  • 灵活调度多种特性的工作负载,高效利用 GPU 等高成本的集群资源;
  • 弹性分配工作负载,优化现有计算资源利用率,允许在同一硬件上运行更多计算;
  • 全面的监控能力,提供资源分配率、使用模式、工作负载等待时间和成本的全局视图。

2. 先进的 Jobs/Workflow 系统

支撑企业级、复杂、大规模的 AI 工作负载,加速 AI 项目的开发与生产。

“TensorStack AI 计算平台”提供 Jobs 类型的 API 使得各种类型的大规模 AI 计算可以方便的被开发、定义、运行、调试和管理。API 采用云原生方式,包含对 Big Data Processing、模型分布并行式训练、MPI 并行计算作业、通用并行计算作业等的支持。

同时,平台的工作流系统,能够把多步骤计算任务灵活地组合在一起,进行统一管理和调度,在集群中实现复杂大规模计算工作流自动化。具有以下优点:

  • 可定制:Workflow 服务允许高度的灵活性,用户可以将一些基础任务组装成复杂的流水线,并使用条件分支、失败重启等高级功能。
  • 可重用:用户可以编写任务模板,并在每次运行时为其提供不同的参数,达到一次编写、多次调用的目的,提高应用的模块性和代码的重用率,避免重复造轮子。Workflow 服务预置了常用的任务模板以供调用,减轻用户负担。
  • 可扩展:Workflow 服务充分利用云原生架构的开放性和统一性,允许用户在任务中创建定制计算任务并管理其运行,极大拓宽了工作流的扩展性。

3. 全流程 AI 工具

支持全流程 AI 开发与管理,降低开发门槛,全面满足各层次 AI 用户需求。

“TensorStack AI 计算平台”为用户提供了一站式、全云端的开发环境,支持在企业场景下规模化准备、构建、部署、监控和维护强大 AI 应用所需的所有环节;无需本地配置环境,满足随时随地进行 AI 开发的需求,便于团队协同工作,使整个开发流程更加便捷、高效。

4. 开放、易拓展的架构

开放、易拓展的平台架构,为用户进行 AI 技术研究、应用提供长期价值。

基于云原生标准构建, 架构先进、开放,方便与第三方工具和系统集成;支持开发者使用多种语言、AI 框架和计算资源。

提供强大的命令行工具和易用的 SDK,构建开发者与 TensorStack AI 计算平台之间的连接,节省开发时间,降低开发成本,支持企业和合作伙伴进行二次开发。

高度灵活,适应企业多样化基础设施环境,弹性伸缩 AI 计算规模;支持集群单体规模扩展、多集群扩展、跨地理区域扩展。

5. 现代化的安全机制

基于先进的零信任安全架构(ZTA),全面和细粒度的实现多种安全策略,系统化的支持对平台引入的第三方工具和服务进行安全增强和整合。

多用户与权限控制管理能力提供对 AI 模型、数据、集群计算资源等的安全访问控制,保证 AI 资产安全,优化资源配置,提高资源利用效率的同时提供灵活性。