Proxmox VE 9.2 已发布,产品下载和文档入口已整理 查看下载中心

客户案例

圣珀尔滕应用科学大学:使用 Proxmox VE 优化 GPU 利用率

圣珀尔滕应用科学大学通过 Proxmox VE 和 NVIDIA vGPU 技术,实现 GPU 资源动态共享,显著提升硬件利用率并降低成本。

当学生和研究人员同时需要 GPU 算力时,传统方法很快就达到瓶颈:GPU 算力昂贵、需求波动大、固定分配往往导致资源闲置。圣珀尔滕应用科学大学(USTP)开发了一种解决方案,使本地 AI 工作负载变得可预测,并显著加快了部署速度。

在 USTP 计算机科学与安全系,AI 不仅出现在课程中,还以实践方式授课。在教学和研究中,师生使用支持 GPU 的系统进行大语言模型(LLM)、AI 助手、仇恨言论检测、经典机器学习算法和强化学习等研究,例如使用 AWS DeepRacer 车辆进行计算机视觉应用。大部分 GPU 硬件用于 AI RealLabor 项目,在实际应用中测试和开发 AI 驱动的方法。

近八年来,GPU 加速工作负载一直是 USTP 数据科学和 AI 项目的基石,这一传统源于 IT 安全领域的更悠久历史。然而,随着需求增长,挑战从提供原始算力转变为确保公平访问。由于 GPU 容量比 CPU 资源昂贵且稀缺得多,跨用户组的高效编排成为成功的关键因素。

最初,多个用户组直接在裸金属服务器上工作——这种模式在实践中很快达到极限。缺乏资源隔离和相互干扰不仅威胁数据完整性,还威胁整个系统的稳定性。转向虚拟化是增强安全性的合理步骤。

虽然 Proxmox VE 和 PCIe 直通实现了清晰的用户隔离,但一个新问题出现了:GPU 被绑定到单个虚拟机。在动态的大学环境中,这导致了昂贵的空闲时间——即使未使用,宝贵资源仍然被占用。

2024 年底,随着 NVIDIA Time-Sliced vGPU 的出现带来了突破。借助 Proxmox 官方支持,现在可以通过配置文件灵活分割 VRAM。结果:硬件利用率显著提升,因为算力是根据实际需求分配的,而不是锁定在空闲的虚拟机中。这创建了一个可随工作负载波动无缝扩展的生产就绪环境。

GPU 隔离:最大化利用率

最初,多个用户组直接在裸金属服务器上工作——这种模式在实践中很快达到极限。缺乏资源隔离和相互干扰不仅威胁数据完整性,还威胁整个系统的稳定性。转向虚拟化是增强安全性的合理步骤。虽然 Proxmox VE 和 PCIe 直通实现了清晰的用户隔离,但一个新问题出现了:GPU 被绑定到单个虚拟机。在动态的大学环境中,这导致了昂贵的空闲时间——即使未使用,宝贵资源仍然被占用。2024 年底,随着 NVIDIA Time-Sliced vGPU 的出现带来了突破。借助 Proxmox 官方支持,现在可以通过配置文件灵活分割 VRAM。结果:硬件利用率显著提升,因为算力是根据实际需求分配的,而不是锁定在空闲的虚拟机中。这创建了一个可随工作负载波动无缝扩展的生产就绪环境。

从手动到自助配置

第二个里程碑是通过内部平台 CampusCloud 进行集中编排。使用 Proxmox API,系统管理整个集群:师生可以独立配置 Web 托管环境(PHP/NodeJS)或支持 GPU 的强大虚拟机。速度提升显著:Web 托管:不到一分钟即可就绪,包括反向代理和 TLS 证书。虚拟机:配置后两分钟内即可访问。过去,耗时的流程如手动克隆、IP 分配和防火墙配置拖慢了工作流程。如今,智能限时 GPU 分配确保了最大稳定性和公平使用,即使在 1200 名用户中有 200 名并发使用。

高端 GPU 性能与强大计算基础

CampusCloud 建立在一个既可运行高级 GPU 工作负载又可运行通用计算任务的硬件平台上。GPU 集群(高端 AI 工作负载):Dell PowerEdge R760XA:2× Intel Xeon Platinum 8452Y,512 GB DDR5 RAM,4× NVIDIA H100;Dell PowerEdge XE9680:2× Intel Xeon Gold 6542Y,1.5 TB DDR5 RAM,8× NVIDIA H200;2× Dell PowerEdge XE7740:各配备 2× Intel Xeon 6747P,1 TB DDR5 RAM,8× NVIDIA RTX PRO 6000 Blackwell Server Edition GPU via PCIe Passthrough;Supermicro SuperServer 4029GP-TRT2:8× NVIDIA GTX 1080 Ti;4× HPE ProLiant ML110 Gen10:各配备 2× NVIDIA RTX 4060 Ti。CPU 计算(传统工作负载):3× Cisco UCS C240 M5S:各配备 2× Intel Xeon Gold 6248,256 GB DDR4 RAM。这种设置为每个用例提供了 GPU 算力和 CPU 容量的最佳组合,最大化资源利用率并减少空闲硬件。

开源而非供应商锁定

客户引言

"vGPU 技术和 CampusCloud 之间的协同改变了日常工作:GPU 不再被固定预留,而是动态共享。这显著提高了利用率,同时虚拟化确保了用户组之间的必要稳定性和安全性。通过将企业级硬件与专业开源虚拟化相结合,我们创造了最佳条件,使我们能够为 AI 领域的学生和研究人员提供最佳支持,并充分发挥我们的基础设施潜力。"

— USTP 计算机科学与安全系团队

"vGPU 技术和 CampusCloud 之间的协同改变了日常工作:GPU 不再被固定预留,而是动态共享。这显著提高了利用率,同时虚拟化确保了用户组之间的必要稳定性和安全性。通过将企业级硬件与专业开源虚拟化相结合,我们创造了最佳条件,使我们能够为 AI 领域的学生和研究人员提供最佳支持,并充分发挥我们的基础设施潜力。"

成果:更高性能,更低运营开销

vGPU 技术和 CampusCloud 之间的协同改变了日常工作:GPU 不再被固定预留,而是动态共享。这显著提高了利用率,同时虚拟化确保了用户组之间的必要稳定性和安全性。通过将企业级硬件与专业开源虚拟化相结合,我们创造了最佳条件,使我们能够为 AI 领域的学生和研究人员提供最佳支持,并充分发挥我们的基础设施潜力。

自动化与下一代 GPU 共享

下一阶段扩展即将到来:全自动化预订系统。用户将在日历中选择时间段;然后系统使用 Ansible 将虚拟机移到适当的节点,配置 vGPU 并安装必要的驱动程序。时间段到期后,资源立即释放给下一个预定任务。此外,正在新 XE7740 系统上测试 NVIDIA 多实例 GPU(MIG)。目标是实施更严格的 GPU 资源隔离,完全消除用户之间的干扰。逐步创建一个在需要时准确、快速、高效地提供算力的基础设施。

关于 USTP

圣珀尔滕应用科学大学是奥地利一所强调实践导向的大学,紧密整合教育、研究和经济。提供从信息学和 AI 到安全、数字技术、媒体、通信和管理,以及健康、社会科学和铁路技术等领域的学位课程。重点不仅是传授理论知识,还包括在项目、实验室和合作中应用这些知识,让学生和研究团队能够解决实际问题。

使用的产品

  • Proxmox VE 虚拟化平台

了解更多

了解 Proxmox 如何帮助全球企业实现数字化转型。访问我们的产品页面或下载中心开始您的虚拟化之旅。

下载 了解 Proxmox VE

更多客户案例