AI Infrastructure：GPU 虛擬化、Kubernetes 與 MLOps 的完整實踐指南

ssuser18a61b 7 views 11 slides Sep 09, 2025

Slide 1 of 11

About This Presentation

這份簡報將深入探討 AI 基礎架構的核心要素，從 GPU 資源切分與共享技術（vGPU、MIG、MPS、Time Slicing），到 Kubernetes + GPU-Operator 的智慧資源調度，再到推論服務架構 (vLLM、Triton、Hugging Face TGI) 與 MLOps 標準化流程。
透過完整的案�...

Size: 25.69 MB

Language: none

Added: Sep 09, 2025

Slides: 11 pages

Slide Content

AI 基礎架構 Create by Justin

GPU 的切分與共享策略 vGPU 虛擬化技術透過軟體虛擬化將實體 GPU 分割給多個虛擬機器，實現靈活的多租戶環境。 MIG 硬體分割 Multi-Instance GPU 透過硬體層級的物理分割，將 GPU 切分成完全獨立的運算單元。 MPS 多程序服務 Multi-Process Service 允許多個 CUDA 程式同時共享單一 GPU 的運算核心，大幅提升推論服務的並發處理能力。

vGPU (Virtual GPU)：軟體虛擬化的GPU共享什麼是vGPU？ vGPU是透過軟體層面將物理GPU虛擬化，將GPU資源分割成多個虛擬GPU，讓多個虛擬機器同時共享使用。這項技術主要由NVIDIA GRID與VMware vSphere等平台實現，透過精確管理GPU核心與顯存的分配與調度。優勢與限制提升硬體利用率，降低總體擁有成本適合虛擬桌面基礎架構(VDI)與中等負載應用需要購買專用軟體授權虛擬機之間隔離性較弱，可能影響關鍵應用效能 vGPU架構允許多個虛擬機共享同一物理GPU資源

MIG (Multi-Instance GPU)：硬體層面GPU切片硬體層級分割 MIG是NVIDIA Ampere架構引入的硬體層面 GPU分割技術。它能將單一物理GPU切分成最多7個完全獨立且隔離的GPU實例，每個實例擁有專屬的計算核心、L2快取與顯存資源。完全硬體隔離每個MIG實例就像一個獨立的小型GPU，具備完整的硬體隔離，一個實例上運行的工作負載不會影響其他實例的執行效能，大幅提升多租戶環境的安全性與穩定性。高階GPU專屬目前MIG功能僅支援NVIDIA A100、A30等高階資料中心GPU，不適用於消費級顯卡。雖然無需額外軟體授權，但硬體成本較高。 MIG技術特別適合AI訓練與推論、高效能運算(HPC)等需要穩定效能與資源隔離的工作負載。

MPS (Multi-Process Service)：多程序共享完整GPU MPS是NVIDIA提供的服務，允許多個程式同時共享一張完整GPU ，不進行物理或虛擬分割，而是透過多進程協調機制提升GPU利用率。運作原理 MPS創建一個用戶層服務，作為多個CUDA應用程序與GPU驅動之間的中介，讓多個程序能夠同時提交計算任務，由MPS負責資源排程與分配，大幅減少上下文切換的開銷。「MPS不分割GPU，而是讓多個程序高效共存，適合同一用戶的多任務並行處理。」適用場景高效能計算(HPC)叢集環境深度學習訓練中的多模型並行處理同一用戶需要運行多個小型GPU任務 MPS無法像vGPU或MIG那樣分割GPU資源，但在特定場景下可提供極高的執行效率。

Time Slicing (時間切片)：GPU時間維度的共享時間維度的分割時間切片技術將GPU的運算時間切分成多個時間片段，讓多個虛擬機或程序輪流使用整張GPU。這種方式不分割GPU的空間資源，而是讓各任務在不同時間窗口中獨佔使用完整GPU。與vGPU的關係時間切片是vGPU的一種實現方式，屬於軟體層面的資源共享機制。vGPU可以結合時間切片與空間資源分割，根據工作負載特性動態調整資源分配策略。優勢與限制優點：實現簡單，無需特殊硬體支援，適用於多用戶輕量級共享，成本低。缺點：因時間輪流使用，可能產生明顯延遲與性能波動，不適合對實時性要求高的應用。

總結：四種GPU虛擬化技術比較技術分割方式隔離性性能授權需求適用場景 vGPU 軟體虛擬化中等中等需授權 VDI、混合工作負載 MIG 硬體切片高高無需授權 AI訓練、高效能運算 MPS 多程序共享整卡低高無需授權 HPC、多任務並行 Time Slicing 時間切片低變動無需授權輕量級多用戶共享選擇適合的GPU虛擬化技術需考慮多方面因素：工作負載特性、效能需求、隔離性要求、成本預算等。現代資料中心通常會混合使用多種技術，為不同應用場景提供最佳化的GPU資源配置方案。建議根據應用需求與預算，選擇最適合的GPU虛擬化技術組合，以實現資源最佳化利用與成本效益最大化。不會嗎？讓 AI 教你

核心控制器：Kubernetes 與 GPU-Operator GPU-Operator：智慧資源管理者 GPU-Operator 扮演 Kubernetes 集群中的智慧眼睛和靈活雙手，負責自動偵測、設定和管理 GPU 資源。它不僅能夠識別不同型號的 GPU 硬體，更能將這些資源抽象化為 K8s 可調度的標準資源，實現統一的資源管理介面。 device-plugin-config 設定這個關鍵設定檔案定義了 GPU 資源的暴露策略，包括 vGPU 設定檔、MIG 切分方案，以及資源配額管理。透過精確的 YAML 設定，我們能夠為不同的工作負載提供客製化的 GPU 資源配置。自動化 NVIDIA 驅動程式安裝與更新動態 GPU 資源發現與註冊統一的資源調度與監控介面多 GPU 型號的混合管理支援

應用層效能引擎：高效推論服務架構 vLLM：革新性推論引擎 vLLM 透過 PagedAttention 技術和連續批次處理，有效解決大型語言模型推論中的記憶體瓶頸問題。其創新的 KV-Cache 管理機制能夠大幅提升推論吞吐量，特別適合高並發的生產環境。企業級推論平台 NVIDIA Triton Inference Server 和 Hugging Face TGI 提供企業級的推論服務管理功能，包括模型版本控制、A/B 測試、效能監控和自動擴展能力，適合大規模部署場景。開發友善工具 Ollama 專注於開發者體驗，提供簡化的本地部署和測試環境。雖然在可擴展性和企業級功能上有所限制，但其便利性使其成為原型開發和概念驗證的理想選擇。選擇合適的推論引擎需要考慮模型類型、延遲需求、吞吐量要求以及運營複雜度等多個面向。在生產環境中，建議採用 vLLM + Kubernetes 的組合以獲得最佳的效能和管理性。

MLOps 實踐：專業團隊協作與標準化流程 ServingRuntime：標準化部署模板 ServingRuntime 提供了一個標準化的模型部署框架，將複雜的推論服務設定抽象化為可重複使用的模板。這不僅簡化了模型上線流程，更確保了部署的一致性和可維護性。 01 AI Infrastructure Engineer 負責K8S底層平台的架構設計與維護，包括Kubernetes 集群管理、GPU 資源調度，以及監控告警系統的建置。確保整個 AI 平台的穩定性和可擴展性。 02 Data Scientist 專注於模型研發與算法優化，利用基礎架構團隊提供的運算資源進行實驗和訓練。負責特徵工程、模型選擇和效能調優，將業務問題轉化為可實現的機器學習解決方案。 03 ML Engineer 橋接研發與生產環境，負責模型的產品化部署、CI/CD 流程建置、模型監控和版本管理。確保模型能夠穩定地在生產環境中運行並持續優化。

AI Infrastructure Engineer 的核心價值完整性 (Completeness) 提供從硬體選型到應用部署的端到端解決方案，涵蓋運算、儲存、網路和軟體堆疊的每個層面，確保 AI 工作負載的全方位支援。可靠性 (Reliability) 建構高可用性的基礎架構，透過容錯設計、自動故障恢復和完善的監控告警機制，確保 AI 服務的穩定運行和業務連續性。自動化 (Automation) 實現基礎設施即程式碼 (IaC) 和 GitOps 工作流程，透過自動化部署、擴展和維護流程，大幅降低人為錯誤和營運成本。我們的使命是打造一個讓 AI 團隊能夠專注於創新的強健平台。透過標準化的工具鏈、自動化的運維流程，以及可擴展的架構設計，我們為整個組織的 AI 能力提供堅實的技術基礎，推動人工智慧應用的快速落地與規模化發展。「優秀的 AI Infrastructure Engineer 不只是技術的實施者，更是創新的推動者。我們建構的不僅是系統，更是未來 AI 發展的可能性。」

AI Infrastructure：GPU 虛擬化、Kubernetes 與 MLOps 的完整實踐指南

About This Presentation

Slide Content

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

AI Infrastructure：GPU 虛擬化、Kubernetes 與 MLOps 的完整實踐指南

About This Presentation

Slide Content

Slide 1

Slide 2

Slide 3

Slide 4

Slide 5

Slide 6

Slide 7

Slide 8

Slide 9

Slide 10

Slide 11

Tags

Categories

Download

Quick Actions

Statistics

Related Slideshows

8-top-ai-courses-for-customer-support-representatives-in-2025.pptx

7-essential-ai-courses-for-call-center-supervisors-in-2025.pptx

25-essential-ai-courses-for-user-support-specialists-in-2025.pptx

8-essential-ai-courses-for-insurance-customer-service-representatives-in-2025.pptx

Know for Certain

PPT OPD LES 3ertt4t4tqqqe23e3e3rq2qq232.pptx