帮助文档 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
帮助文档 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 分布式云容器平台ACK One
  4. 操作指南
  5. 注册集群
  6. 接入云上Serverless算力
  7. ACS算力
  8. 为ACS GPU Pod指定GPU型号和驱动版本

为ACS GPU Pod指定GPU型号和驱动版本

  • ACS算力
  • 发布于 2025-04-18
  • 0 次阅读
文档编辑
文档编辑

阿里云容器计算服务ACS以Serverless形态提供容器算力,在使用GPU资源时,支持在Pod上声明GPU型号和ACS支持的驱动版本,极大降低了业务的基础设施管理和运维成本。本文主要介绍如何在创建Pod时指定GPU型号和驱动版本。

GPU型号说明

ACS支持按量申请和容量预留两种方式使用GPU资源。结合容量预留使用时,Pod创建后会自动抵扣容量预留。详细信息,请参见GPU Pod容量预留。

说明

目前支持的GPU具体型号列表请提交工单咨询。

为Pod指定GPU型号

对于GPU型,您需要在Pod的labels和nodeSelector中显式指定GPU型号。具体方式如下。

计算类

协议字段

样例

GPU型

metadata.labels[

alibabacloud.com/gpu-model-series]

apiVersion: v1
kind: Pod
metadata:
  labels:
    # 指定compute-class为gpu类型
    alibabacloud.com/compute-class: "gpu"
    # 指定GPU型号为example-model,请按实际情况填写,如T4
    alibabacloud.com/gpu-model-series: "example-model"
  name: gpu-pod
spec:
...

驱动版本说明

GPU应用通常需要依赖CUDA(Compute Unified Device Architecture)运行,CUDA是显卡厂商NVIDIA在2007年推出的并行计算平台和编程模型。下图为CUDA的架构体系,CUDA软件堆栈中的驱动层API和运行时层API有以下区别。

  • 驱动层API(Driver API):功能较完整,但是使用复杂。

  • 运行时API(CUDA Runtime API):封装了部分驱动的API,将某些驱动初始化操作隐藏,使用方便。

CUDA的Driver API由NVIDIA Driver包提供,而CUDA Library和CUDA Runtime由CUDA Toolkit包提供。

cuda.png在使用ACS Pod运行GPU应用时,您需要注意:

  1. 容器镜像中安装CUDA Toolkit时,使用NVIDIA提供的CUDA基础镜像。这些基础镜像已经安装了CUDA Toolkit。您可以基于基础镜像构建应用容器镜像。您也可以根据不同的CUDA Toolkit版本选择不同的CUDA基础镜像。

  2. 创建应用时指定Pod所需的驱动版本,详见为Pod指定驱动版本。

  3. 关于CUDA Toolkit与NVIDIA驱动的版本兼容性列表,请参见NVIDIA官方文档CUDA Toolkit Release Notes。

说明

应用程序使用的CUDA运行时API版本与该应用的Docker镜像使用的CUDA基础镜像版本一致。例如,您的应用的Docker镜像基于CUDA基础镜像NVIDIA/CUDA:12.2.0-base-Ubuntu20.04构建,那么应用使用的CUDA运行时API版本为12.2.0。

为Pod指定驱动版本

ACS支持在应用使用GPU资源时,通过Pod的label标签指定驱动版本,具体格式如下。

计算类

协议字段

样例

GPU型

metadata.labels[alibabacloud.com/gpu-driver-version]

apiVersion: v1
kind: Pod
metadata:
  labels:
    # 指定compute-class为gpu类型
    alibabacloud.com/compute-class: "gpu"
    # 指定GPU型号为example-model,请按实际情况填写,如T4
    alibabacloud.com/gpu-model-series: "example-model"
    # 指定驱动版本为535.161.08
    alibabacloud.com/gpu-driver-version: "535.161.08"
  name: gpu-pod
spec:
...

GPU驱动版本

在为Pod指定驱动版本时,需要确保驱动版本包含在ACS支持的驱动版本列表中。关于修改集群默认的驱动版本,请参见配置acs-profile实现Pod配置自动注入按需修改。以下是各GPU卡型对应的驱动版本列表。

卡型

支持的驱动版本

8代GPU A

550.90.07(默认版本)

8代GPU B

550.90.07(默认版本),535.161.08

T4

535.161.08(默认版本),525.105.17

操作示例

  1. 使用以下YAML内容,创建acs-pod-with-model-and-driver.yaml文件,文件中描述了一个compute-class为GPU的Pod,申请型号为example-model的GPU资源和535.161.08驱动版本。

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: acs-pod-with-model-and-driver
      namespace: default
      labels:
        app: acs-pod-with-model-and-driver
    spec:
      replicas: 1
      selector:
        matchLabels:
          app: acs-pod-with-model-and-driver
      template:
        metadata:
          name: acs-pod-with-model-and-driver
          labels:
            app: acs-pod-with-model-and-driver
            # 指定acs 算力
            alibabacloud.com/acs: "true"
            # 指定compute-class为gpu类型
            alibabacloud.com/compute-class: "gpu"
            # 指定GPU型号为example-model,请按实际情况填写,如T4
            alibabacloud.com/gpu-model-series: "<example-model>"
            # 指定驱动版本为535.161.08
            alibabacloud.com/gpu-driver-version: "535.161.08"
        spec:
          containers:
          - image: registry.cn-beijing.aliyuncs.com/acs/tensorflow-mnist-sample:v1.5
            name: tensorflow-mnist
            command:
            - sleep
            - infinity
            resources:
              requests:
                cpu: 1
                memory: 1Gi
                nvidia.com/gpu: 1
              limits:
                cpu: 1
                memory: 1Gi
                nvidia.com/gpu: 1    
  2. 执行以下命令,将acs-pod-with-model-and-driver.yaml部署到集群。

    kubectl apply -f acs-pod-with-model-and-driver.yaml
  3. 执行以下命令,查看Pod状态。

    kubectl get pod

    预期输出:

    NAME                                             READY   STATUS    RESTARTS   AGE
    acs-pod-with-model-and-driver-7b89cbf4cf-2w66p   1/1     Running   0          6m26s
  4. 执行以下命令,查看Pod的GPU信息。

    说明

    以下命令中的/usr/bin/nvidia-smi为样例镜像中已经封装好的命令参数。

    kubectl exec -it acs-pod-with-model-and-driver-7b89cbf4cf-2w66p -- /usr/bin/nvidia-smi

    预期输出:

    +---------------------------------------------------------------------------------------+
    | NVIDIA-SMI xxx.xxx.xx             Driver Version: 535.161.08   CUDA Version: xx.x     |
    |-----------------------------------------+----------------------+----------------------+
    ...
    |=========================================+======================+======================|
    |   x  NVIDIA example-model           xx  | xxxxxxxx:xx:xx.x xxx |                    x |
    | xxx   xxx    xx              xxx / xxxx |      xxxx /       xxx|      x%      xxxxxxxx|
    |                                         |                      |                  xxx |
    +-----------------------------------------+----------------------+----------------------+

    预期输出的信息中GPU型号为example-model,驱动版本为535.161.08,与Pod标签中配置一致。

    重要

    以上内容只是样例输出,实际数据以您的操作环境为准。

相关文章

使用自建镜像仓库创建ACS Pod 2025-04-18 18:14

拉取自建镜像仓库中的镜像时,可能会碰到因协议不同、证书认证失败或者使用了自建DNS服务器而导致镜像拉取失败的问题。本文介绍在自建镜像仓库采用HTTP协议和使用自签发证书或者自建DNS服务器的情况下,如何拉取自建镜像仓库中的镜像来创建ACS工作负载。 功能说明 拉取自建镜像仓库中的镜像时,可能会碰到E

为ACS Pod配置自定义DNS 2025-04-18 18:14

如果您需要使用自建DNS服务来解析镜像仓库以及其他应用的域名,需要将ACS Pod使用的DNS配置为您自建的DNS服务器。本文介绍如何为ACS Pod配置自定义DNS。 适用范围 以下3种情况可以通过Annotation配置自定义DNS:

使用PrivateLink解决数据中心网段IP冲突 2025-04-18 18:14

数据中心的Kubernetes集群通过专线接入ACK One注册集群后,在使用Serverless算力资源时,ack-virtual-node组件需要调用阿里云内网的OpenAPI进行资源生命周期管理。而这些内网的OpenAPI域名解析的IP地址通常都是100网段的IP,可能会导致内网中使用相同网段

静态挂载NAS存储卷 2025-04-18 18:14

对于共享数据,I/O要求较高的应用场景,您可以使用文件存储 NAS(File Storage NAS)作为持久化存储卷。本文介绍如何为应用

静态挂载OSS存储卷 2025-04-18 18:14

如果应用需要存储图片、音视频等非结构化数据,可以使用OSS作为持久化存储卷。本文介绍如何为应用静态挂载OSS存储卷,并验证OSS的共享存储和持久化存储。 注意事项 OSS是一个海量、安全、低成本、高可靠的存储空间,适合存储写入后较少修改的数据,以及非结构化数据(如图片、音视频等)。更多信息,请参见存

增加临时存储空间大小 2025-04-18 18:14

ACS Pod默认提供30 GiB的免费的临时存储空间(EphemeralStorage),如果该存储空间大小无法满足您的需求,您可以自定义增加临时存储空间大小。 背景信息 每个ACS Pod默认提供30 GiB的临时存储空间(免费),如下图所示。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 博智数字服务平台.
闽ICP备08105208号-1