University of Applied Sciences St. Pölten (USTP) 客户案例 | Proxmox VE 奥地利大学

当学生和研究人员同时需要 GPU 算力时，传统方法很快就达到瓶颈：GPU 算力昂贵、需求波动大、固定分配往往导致资源闲置。圣珀尔滕应用科学大学（USTP）开发了一种解决方案，使本地 AI 工作负载变得可预测，并显著加快了部署速度。

在 USTP 计算机科学与安全系，AI 不仅出现在课程中，还以实践方式授课。在教学和研究中，师生使用支持 GPU 的系统进行大语言模型（LLM）、AI 助手、仇恨言论检测、经典机器学习算法和强化学习等研究，例如使用 AWS DeepRacer 车辆进行计算机视觉应用。大部分 GPU 硬件用于 AI RealLabor 项目，在实际应用中测试和开发 AI 驱动的方法。

近八年来，GPU 加速工作负载一直是 USTP 数据科学和 AI 项目的基石，这一传统源于 IT 安全领域的更悠久历史。然而，随着需求增长，挑战从提供原始算力转变为确保公平访问。由于 GPU 容量比 CPU 资源昂贵且稀缺得多，跨用户组的高效编排成为成功的关键因素。

最初，多个用户组直接在裸金属服务器上工作——这种模式在实践中很快达到极限。缺乏资源隔离和相互干扰不仅威胁数据完整性，还威胁整个系统的稳定性。转向虚拟化是增强安全性的合理步骤。

虽然 Proxmox VE 和 PCIe 直通实现了清晰的用户隔离，但一个新问题出现了：GPU 被绑定到单个虚拟机。在动态的大学环境中，这导致了昂贵的空闲时间——即使未使用，宝贵资源仍然被占用。

2024 年底，随着 NVIDIA Time-Sliced vGPU 的出现带来了突破。借助 Proxmox 官方支持，现在可以通过配置文件灵活分割 VRAM。结果：硬件利用率显著提升，因为算力是根据实际需求分配的，而不是锁定在空闲的虚拟机中。这创建了一个可随工作负载波动无缝扩展的生产就绪环境。

GPU 隔离：最大化利用率

最初，多个用户组直接在裸金属服务器上工作——这种模式在实践中很快达到极限。缺乏资源隔离和相互干扰不仅威胁数据完整性，还威胁整个系统的稳定性。转向虚拟化是增强安全性的合理步骤。虽然 Proxmox VE 和 PCIe 直通实现了清晰的用户隔离，但一个新问题出现了：GPU 被绑定到单个虚拟机。在动态的大学环境中，这导致了昂贵的空闲时间——即使未使用，宝贵资源仍然被占用。2024 年底，随着 NVIDIA Time-Sliced vGPU 的出现带来了突破。借助 Proxmox 官方支持，现在可以通过配置文件灵活分割 VRAM。结果：硬件利用率显著提升，因为算力是根据实际需求分配的，而不是锁定在空闲的虚拟机中。这创建了一个可随工作负载波动无缝扩展的生产就绪环境。

从手动到自助配置

第二个里程碑是通过内部平台 CampusCloud 进行集中编排。使用 Proxmox API，系统管理整个集群：师生可以独立配置 Web 托管环境（PHP/NodeJS）或支持 GPU 的强大虚拟机。速度提升显著：Web 托管：不到一分钟即可就绪，包括反向代理和 TLS 证书。虚拟机：配置后两分钟内即可访问。过去，耗时的流程如手动克隆、IP 分配和防火墙配置拖慢了工作流程。如今，智能限时 GPU 分配确保了最大稳定性和公平使用，即使在 1200 名用户中有 200 名并发使用。

高端 GPU 性能与强大计算基础

CampusCloud 建立在一个既可运行高级 GPU 工作负载又可运行通用计算任务的硬件平台上。GPU 集群（高端 AI 工作负载）：Dell PowerEdge R760XA：2× Intel Xeon Platinum 8452Y，512 GB DDR5 RAM，4× NVIDIA H100；Dell PowerEdge XE9680：2× Intel Xeon Gold 6542Y，1.5 TB DDR5 RAM，8× NVIDIA H200；2× Dell PowerEdge XE7740：各配备 2× Intel Xeon 6747P，1 TB DDR5 RAM，8× NVIDIA RTX PRO 6000 Blackwell Server Edition GPU via PCIe Passthrough；Supermicro SuperServer 4029GP-TRT2：8× NVIDIA GTX 1080 Ti；4× HPE ProLiant ML110 Gen10：各配备 2× NVIDIA RTX 4060 Ti。CPU 计算（传统工作负载）：3× Cisco UCS C240 M5S：各配备 2× Intel Xeon Gold 6248，256 GB DDR4 RAM。这种设置为每个用例提供了 GPU 算力和 CPU 容量的最佳组合，最大化资源利用率并减少空闲硬件。

开源而非供应商锁定

客户引言

"vGPU 技术和 CampusCloud 之间的协同改变了日常工作：GPU 不再被固定预留，而是动态共享。这显著提高了利用率，同时虚拟化确保了用户组之间的必要稳定性和安全性。通过将企业级硬件与专业开源虚拟化相结合，我们创造了最佳条件，使我们能够为 AI 领域的学生和研究人员提供最佳支持，并充分发挥我们的基础设施潜力。"

— USTP 计算机科学与安全系团队

成果：更高性能，更低运营开销

vGPU 技术和 CampusCloud 之间的协同改变了日常工作：GPU 不再被固定预留，而是动态共享。这显著提高了利用率，同时虚拟化确保了用户组之间的必要稳定性和安全性。通过将企业级硬件与专业开源虚拟化相结合，我们创造了最佳条件，使我们能够为 AI 领域的学生和研究人员提供最佳支持，并充分发挥我们的基础设施潜力。

自动化与下一代 GPU 共享

下一阶段扩展即将到来：全自动化预订系统。用户将在日历中选择时间段；然后系统使用 Ansible 将虚拟机移到适当的节点，配置 vGPU 并安装必要的驱动程序。时间段到期后，资源立即释放给下一个预定任务。此外，正在新 XE7740 系统上测试 NVIDIA 多实例 GPU（MIG）。目标是实施更严格的 GPU 资源隔离，完全消除用户之间的干扰。逐步创建一个在需要时准确、快速、高效地提供算力的基础设施。

关于 USTP

圣珀尔滕应用科学大学是奥地利一所强调实践导向的大学，紧密整合教育、研究和经济。提供从信息学和 AI 到安全、数字技术、媒体、通信和管理，以及健康、社会科学和铁路技术等领域的学位课程。重点不仅是传授理论知识，还包括在项目、实验室和合作中应用这些知识，让学生和研究团队能够解决实际问题。

使用的产品

Proxmox VE 虚拟化平台

了解更多

了解 Proxmox 如何帮助全球企业实现数字化转型。访问我们的产品页面或下载中心开始您的虚拟化之旅。

下载了解 Proxmox VE

圣珀尔滕应用科学大学：使用 Proxmox VE 优化 GPU 利用率

GPU 隔离：最大化利用率

从手动到自助配置

高端 GPU 性能与强大计算基础

开源而非供应商锁定

客户引言

成果：更高性能，更低运营开销

自动化与下一代 GPU 共享

关于 USTP

使用的产品

了解更多

更多客户案例

我们需要一种安全、灵活和可持续的基础设施，以满足我们在公共管理中的实际和未来 IT 需求。...

Proxmox VE 恰恰提供了我们需要的：高可用性功能、易用性和正确的 Ceph 集成。...

Proxmox VE 使 PhillyIX 能够为成员提供出色的连接，帮助他们实现保持本地流量的使命...

Proxmox VE 与强大硬件的结合为 otris software AG 提供了一个可靠、经济高...

IGNUM 是捷克最受尊敬的域名注册商和服务器托管提供商之一。...

Exa Networks 使用 Proxmox VE 管理其 KVM 和 Ceph 基础设施，用于为...