AI Infrastructure:GPU 虛擬化、Kubernetes 與 MLOps 的完整實踐指南

ssuser18a61b 7 views 11 slides Sep 09, 2025
Slide 1
Slide 1 of 11
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11

About This Presentation

這份簡報將深入探討 AI 基礎架構的核心要素,從 GPU 資源切分與共享技術(vGPU、MIG、MPS、Time Slicing),到 Kubernetes + GPU-Operator 的智慧資源調度,再到 推論服務架構 (vLLM、Triton、Hugging Face TGI) 與 MLOps 標準化流程。
透過完整的案�...


Slide Content

AI 基礎架構 Create by Justin

GPU 的切分與共享策略 vGPU 虛擬化技術 透過軟體虛擬化將實體 GPU 分割給多個虛擬機器,實現靈活的多租戶環境 。 MIG 硬體分割 Multi-Instance GPU 透過硬體層級的物理分割,將 GPU 切分成完全獨立的運算單元 。 MPS 多程序服務 Multi-Process Service 允許多個 CUDA 程式同時共享單一 GPU 的運算核心,大幅提升推論服務的並發處理能力 。

vGPU (Virtual GPU):軟體虛擬化的GPU共享 什麼是vGPU? vGPU是透過 軟體層面 將物理GPU虛擬化,將GPU資源分割成多個虛擬GPU,讓多個虛擬機器同時共享使用。這項技術主要由NVIDIA GRID與VMware vSphere等平台實現,透過精確管理GPU核心與顯存的分配與調度。 優勢與限制 提升硬體利用率,降低總體擁有成本 適合虛擬桌面基礎架構(VDI)與中等負載應用 需要購買專用軟體授權 虛擬機之間隔離性較弱,可能影響關鍵應用效能 vGPU架構允許多個虛擬機共享同一物理GPU資源

MIG (Multi-Instance GPU):硬體層面GPU切片 硬體層級分割 MIG是NVIDIA Ampere架構引入的 硬體層面 GPU分割技術。它能將單一物理GPU切分成最多7個完全獨立且隔離的GPU實例,每個實例擁有專屬的計算核心、L2快取與顯存資源。 完全硬體隔離 每個MIG實例就像一個獨立的小型GPU,具備 完整的硬體隔離 ,一個實例上運行的工作負載不會影響其他實例的執行效能,大幅提升多租戶環境的安全性與穩定性。 高階GPU專屬 目前MIG功能僅支援NVIDIA A100、A30等高階資料中心GPU,不適用於消費級顯卡。雖然無需額外軟體授權,但硬體成本較高。 MIG技術特別適合AI訓練與推論、高效能運算(HPC)等需要穩定效能與資源隔離的工作負載。

MPS (Multi-Process Service):多程序共享完整GPU MPS是NVIDIA提供的服務,允許 多個程式同時共享一張完整GPU ,不進行物理或虛擬分割,而是透過多進程協調機制提升GPU利用率。 運作原理 MPS創建一個用戶層服務,作為多個CUDA應用程序與GPU驅動之間的中介,讓多個程序能夠同時提交計算任務,由MPS負責資源排程與分配,大幅減少上下文切換的開銷。 「MPS不分割GPU,而是讓多個程序高效共存,適合同一用戶的多任務並行處理。」 適用場景 高效能計算(HPC)叢集環境 深度學習訓練中的多模型並行處理 同一用戶需要運行多個小型GPU任務 MPS無法像vGPU或MIG那樣分割GPU資源,但在特定場景下可提供極高的執行效率。

Time Slicing (時間切片):GPU時間維度的共享 時間維度的分割 時間切片技術將GPU的 運算時間 切分成多個時間片段,讓多個虛擬機或程序 輪流 使用整張GPU。這種方式不分割GPU的空間資源,而是讓各任務在不同時間窗口中獨佔使用完整GPU。 與vGPU的關係 時間切片是vGPU的一種實現方式,屬於軟體層面的資源共享機制。vGPU可以結合時間切片與空間資源分割,根據工作負載特性動態調整資源分配策略。 優勢與限制 優點:實現簡單,無需特殊硬體支援,適用於多用戶輕量級共享,成本低。 缺點:因時間輪流使用,可能產生明顯延遲與性能波動,不適合對實時性要求高的應用。

總結:四種GPU虛擬化技術比較 技術 分割方式 隔離性 性能 授權需求 適用場景 vGPU 軟體虛擬化 中等 中等 需授權 VDI、混合工作負載 MIG 硬體切片 高 高 無需授權 AI訓練、高效能運算 MPS 多程序共享整卡 低 高 無需授權 HPC、多任務並行 Time Slicing 時間切片 低 變動 無需授權 輕量級多用戶共享 選擇適合的GPU虛擬化技術需考慮多方面因素:工作負載特性、效能需求、隔離性要求、成本預算等。現代資料中心通常會混合使用多種技術,為不同應用場景提供最佳化的GPU資源配置方案。 建議根據應用需求與預算,選擇最適合的GPU虛擬化技術組合,以實現資源最佳化利用與成本效益最大化 。 不會嗎?讓 AI 教你

核心控制器:Kubernetes 與 GPU-Operator GPU-Operator:智慧資源管理者 GPU-Operator 扮演 Kubernetes 集群中的智慧眼睛和靈活雙手,負責自動偵測、設定和管理 GPU 資源。它不僅能夠識別不同型號的 GPU 硬體,更能將這些資源抽象化為 K8s 可調度的標準資源,實現統一的資源管理介面。 device-plugin-config 設定 這個關鍵設定檔案定義了 GPU 資源的暴露策略,包括 vGPU 設定檔、MIG 切分方案,以及資源配額管理。透過精確的 YAML 設定,我們能夠為不同的工作負載提供客製化的 GPU 資源配置。 自動化 NVIDIA 驅動程式安裝與更新 動態 GPU 資源發現與註冊 統一的資源調度與監控介面 多 GPU 型號的混合管理支援

應用層效能引擎:高效推論服務架構 vLLM:革新性推論引擎 vLLM 透過 PagedAttention 技術和連續批次處理,有效解決大型語言模型推論中的記憶體瓶頸問題。其創新的 KV-Cache 管理機制能夠大幅提升推論吞吐量,特別適合高並發的生產環境。 企業級推論平台 NVIDIA Triton Inference Server 和 Hugging Face TGI 提供企業級的推論服務管理功能,包括模型版本控制、A/B 測試、效能監控和自動擴展能力,適合大規模部署場景。 開發友善工具 Ollama 專注於開發者體驗,提供簡化的本地部署和測試環境。雖然在可擴展性和企業級功能上有所限制,但其便利性使其成為原型開發和概念驗證的理想選擇。 選擇合適的推論引擎需要考慮模型類型、延遲需求、吞吐量要求以及運營複雜度等多個面向。在生產環境中,建議採用 vLLM + Kubernetes 的組合以獲得最佳的效能和管理性。

MLOps 實踐:專業團隊協作與標準化流程 ServingRuntime:標準化部署模板 ServingRuntime 提供了一個標準化的模型部署框架,將複雜的推論服務設定抽象化為可重複使用的模板。這不僅簡化了模型上線流程,更確保了部署的一致性和可維護性。 01 AI Infrastructure Engineer 負責K8S底層平台的架構設計與維護,包括Kubernetes 集群管理、GPU 資源調度,以及監控告警系統的建置。確保整個 AI 平台的穩定性和可擴展性。 02 Data Scientist 專注於模型研發與算法優化,利用基礎架構團隊提供的運算資源進行實驗和訓練。負責特徵工程、模型選擇和效能調優,將業務問題轉化為可實現的機器學習解決方案。 03 ML Engineer 橋接研發與生產環境,負責模型的產品化部署、CI/CD 流程建置、模型監控和版本管理。確保模型能夠穩定地在生產環境中運行並持續優化。

AI Infrastructure Engineer 的核心價值 完整性 (Completeness) 提供從硬體選型到應用部署的端到端解決方案,涵蓋運算、儲存、網路和軟體堆疊的每個層面,確保 AI 工作負載的全方位支援。 可靠性 (Reliability) 建構高可用性的基礎架構,透過容錯設計、自動故障恢復和完善的監控告警機制,確保 AI 服務的穩定運行和業務連續性。 自動化 (Automation) 實現基礎設施即程式碼 (IaC) 和 GitOps 工作流程,透過自動化部署、擴展和維護流程,大幅降低人為錯誤和營運成本。 我們的使命是打造一個讓 AI 團隊能夠專注於創新的強健平台。透過標準化的工具鏈、自動化的運維流程,以及可擴展的架構設計,我們為整個組織的 AI 能力提供堅實的技術基礎,推動人工智慧應用的快速落地與規模化發展。 「優秀的 AI Infrastructure Engineer 不只是技術的實施者,更是創新的推動者。我們建構的不僅是系統,更是未來 AI 發展的可能性。」