帮助文档 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
帮助文档 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 分布式云容器平台ACK One
  4. 操作指南
  5. 多集群舰队
  6. 作业分发

作业分发

  • 多集群舰队
  • 发布于 2025-04-18
  • 0 次阅读
文档编辑
文档编辑

ACK One多集群作业分发是阿里云面向多集群和混合云场景提供的多集群AI作业调度和分发的能力。当单一ACK集群无法满足大规模AI训练和推理任务的资源需求,或当前已有的多个ACK集群有较多资源闲置时,您可以利用ACK One多集群作业分发能力,将任务调度到多个集群,以满足您的资源需求。

功能特性

ACK One 多集群作业分发,具有以下能力:

  • 支持多种作业类型:PyTorchJob、SparkApplication、TFJob。

  • 多集群Gang调度:通过预占或动态资源检测,实现作业的多集群Gang调度,确保任务下发到子集群后能够调度,提升任务调度效率。

  • 多租户配额管理:用户可以使用ElasticQuotaTree提供的基于Namespace的资源管理,在多租户场景下限制各租户的资源使用量。

  • 任务优先级调度:依据用户在AI任务中的PodTemplate中定义的PriorityClass,确保高优先级任务优先获得集群资源。

  • 多种任务排队策略配置:您可以灵活定义各队列的排队策略,满足优先提高集群利用率或优先保证任务优先级两种使用方式,支持阻塞调度模式和非阻塞调度模式。

  • 作业失败后的重调度:作业在子集群中失败后,Global Scheduler将回收该作业,并对其进行重调度,调度到其他符合条件且资源充足的集群。

工作原理

image
  1. 向舰队提交PyTorchJob、SparkApplication或TFJob的类型作业和分发策略PropagationPolicy。

  2. 舰队对作业进行优先级调度和租户配额管理Capacity Scheduling。

  3. 舰队中的Global Scheduler,对出队列的作业进行多集群动态资源调度和多集群Gang调度,对满足条件的集群进行资源预占或动态资源检查,调度失败则重新入队列。

  4. 调度成功后,作业按策略分发到对应的ACK集群中。

  5. 若作业运行失败,Global Scheduler将回收作业,并对其进行重调度,调度到其他符合条件且资源充足的集群。

相关文章

舰队管理概述 2025-04-18 18:12

随着Kubernetes集群的广泛应用,企业往往需要运行和管理多个Kubernetes集群,由此带来一系列的问题,例如多集群的管理、对外提供统一的入口、多集群资源的调度等问题。ACK One舰队管理的Fleet实例是由ACK托管的,可以管理任意环境的Kubernetes集群,为企业提供一致的云原生应

仓库管理 2025-04-18 18:11

本文介绍如何在GitOps系统中,通过ArgoCD CLI和ArgoCD控制台方式添加、查看及删除Git源仓库和Helm源仓库。 前提条件 已登录GitOps系统。具体操作,请参见登录GitOps系统

舰队管理网络规划 2025-04-18 18:12

通过舰队管理可以实现跨地域管理多个关联集群。开启舰队管理功能需要配置舰队所在的地域、专有网络VPC和虚拟交换机信息。本文介绍舰队与关联集群的网络连接架构以及如何选择舰队所在的地域、专有网络VPC和虚拟交换机。 网络架构

GitOps概述 2025-04-18 18:11

GitOps是将Git仓库作为Kubernetes集群中部署应用的唯一来源,通过自动化配置基础设施实现应用的持续部署。Fleet实例托管了ArgoCD,并集成多集群能力,实现多集群的GitOps持续交付,满足应用的高可用部署、系统组件多集群分发等需求。本文介绍GitOps和ACK One GitOp

登录GitOps系统 2025-04-18 18:11

本文介绍ACK One GitOps用户如何登录GitOps系统。 前提条件

Application管理 2025-04-18 18:11

本文介绍如何使用GitOps系统管理应用,包括创建部署单个应用、更新和回滚应用。 前提条件

目录
Copyright © 2025 your company All Rights Reserved. Powered by 博智数字服务平台.
闽ICP备08105208号-1