pod指定gpu类型（tf指定gpu）

原标题：pod指定gpu类型（tf指定gpu）

导读：

除了OAM模块,GPU服务器未来还会在哪些方面进行提升?GPU服务器未来可能会在以下几个方面进行提升：GPU/AI加速模块间的全互联更高的数据传输带宽：随着AI模型和训练数...

除了OAM模块,GPU 服务器 未来还会在哪些方面 进行 提升?

GPU服务器未来可能会在以下几个方面进行提升：GPU/AI加速模块间的全互联更高的数据传输带宽：随着AI模型和训练数据集的不断增大，对数据传输带宽的需求也在不断增加。

Open Accelerator module（开放加速模块）是OCP制定的AI硬件加速卡标准，优化服务器与加速模块（如GPU、FPGA）的互联。能缩短AI加速卡与服务器的适配周期，降低芯片企业研发成本，推动标准化设计，支持多架构芯片的灵活集成。应用于AI服务器、高性能计算（HPC）领域，提升算力密度与扩展效率。

共享GPU调度 实现 方法

共享GPU调度的实现方法主要包括以下几种：扩展资源机制：在k8s集群中，通过扩展资源的方式将GPU注册到节点信息中。调度器根据这些扩展资源信息分配资源，实现多个 Pod共享使用同一张显卡。GPU隔离技术：显存隔离：将GPU的显存资源进行隔离，确保不同任务之间不会相互干扰。

实现共享调度最简单的方式是使用英伟达的time-slicing技术。要使用该技术提交time-slicing配置 ConfigMap。

实现方式：统一内存架构：这是一种允许CPU和GPU共享同一物理内存空间的架构。在这种架构下，cpu和GPU可以访问相同的内存地址，从而直接交换数据。显存共享技术：对于GPU来说，其内部有自己的显存。通过显存共享技术，GPU可以将部分显存映射到CPU的地址空间，从而实现两者之间的内存共享。

线程块调度。AMD硬件在将块分配给SE时强制实施块排序。方法很简单：ACE必须按顺序将块分配给SE。例如，直到将块0分配给SE 0后，ACE才能将块1分配给SE 1。图6说明了这个概念，ACE将四个连续的块分派给SE。图6所示的周期会继续，直到将块5分配给SE 0，并且只在内核中的所有块都被分派后结束。

技术：通过PCIe Passthrough技术，将物理GPU直接直通给虚拟机。优缺点：性能损失小，但资源独享，不支持共享，可能导致资源利用不足。直通共享技术：PCIe SRIOV：特点：提供1：N的GPU资源共享。优缺点：灵活性较差，但能够实现GPU资源的有效共享。API转发：特点：通过API转发实现GPU资源的灵活调度。

k8s基础知识(容器编排)

1、调度策略默认调度器：使用优先级和节点可行性评分算法，将POD分配到最适合的节点。自定义调度策略：用户可以通过修改kubescheduler配置文件来自定义调度策略，以适应特定业务需求。以上是对K8s基础知识的简要概述。

2、根据应用程序的需求，使用kubectl 命令扩展或缩减容器的数量。当需要升级K8s集群或应用程序时，可以遵循相应的升级流程进行操作。注意事项：在学习K8s之前，建议先掌握 Docker的基础知识。初次使用K8s时，建议使用kubeadm等快速部署工具，以降低部署难度。

3、基本概念 kubernetes（k8s）：是一个开源的容器编排和管理平台，用于自动化部署、扩展和管理容器化应用程序。容器化：是将应用程序及其依赖项打包到一个可移植的容器中，以便在不同的环境中一致地运行。

4、k8s是一个编排容器的工具，也是管理应用全生命周期的工具。以下是关于k8s的详细解释：容器编排：k8s能够自动化地部署、扩展和管理容器化应用程序。它提供了丰富的功能，如自动部署、自动扩展、故障自愈等，使得容器化应用的运维变得更加简单和高效。

5、Kubernetes（K8s）作为容器编排平台，广泛应用于构建、部署及管理容器化应用。pod作为最小部署单元，资源分配对其正常运行至关重要。本文将深入解析如何在KuberneTES中为Pod分配CPU和内存资源，并提供实例指导。资源分配为何重要？容器化环境中，多个应用共享主机资源。

6、Kubernetes的优势在于其自动化、可扩展性和资源管理功能，这使得数据科学家能够更轻松地部署和扩展模型和应用程序。两者之间的差异： docker专注于容器的创建和运行，提供了构建、部署和运行容器的工具和命令。 Kubernetes则在此基础上提供了更高级的编排和自动化功能，优化了大规模容器的部署和管理。

标签：容器调度部署