事後看來 AI 漏洞：調查 NVIDIA Container 工具包 CVE-2024-0132

十月15, 2024 by Thao Duong，資深產品行銷經理

分享此文章

網路安全社群最近警覺到 NVIDIAContainer Toolkit (GPU 加速 AI 與 ML (機器學習) 應用程式的重要元件) 中的一個重要漏洞。此漏洞被識別為 CVE-2024-0132，會嚴重影響一系列依賴雲端與內部佈署 GPU 資源的 AI 應用程式。在 2024 年 9 月被發現之後，NVIDIA 承認了這個問題，並在不久之後發布了修補程式。

漏洞的詳細資訊

NVIDIAContainer Toolkit(特別是 1.16.1 (含) 以下版本) 內的漏洞源自於檢查使用時間 (Time-of-check Time-of-Use, TOCTOU) 漏洞。這個弱點可被利用來提升權限、逃離容器並操控 GPU 工作負載，可能導致錯誤的 AI 輸出或完全服務中斷。

與此事件相關的特定弱點包括

CVE-2024-0132：這個嚴重程度評等為 9.0 的嚴重缺陷，可能允許特製的容器影像存取主機檔案系統，從而可能導致執行程式碼、拒絕服務和權限升級。
CVE-2024-0133：此中度嚴重漏洞的評等為 4.1，允許特製的容器影像在主機檔案系統上建立空檔案，可能導致資料篡改。

NVIDIA 發佈安全公告並更新受影響軟體的版本，迅速解決此漏洞。

誰會受到影響？

Wiz 發現，研究顯示超過三分之一 (35%) 使用 NVIDIA GPU 的雲端環境存在風險。

使用 1.16.1 (含) 以下版本的 NVIDIAContainer Toolkit，以及 24.6.1 (含) 以下版本的 NVIDIA GPU Operator 的組織，應評估其環境，並採取必要步驟，以降低此漏洞的連鎖效應。

瞭解 NVIDIAContainer Toolkit

英伟达™（NVIDIA®）Container 工具包旨在促进GPU加速的Docker容器的创建和执行。預設情況下，容器無法存取GPU；而這個工具包可讓使用者將英伟达™（NVIDIA®）GPU暴露在容器中。該工具包包含運行時程式庫與公用程式，可自動進行容器的設定，使用者可在容器中利用 NVIDIA GPU 處理高效能的 AI 工作負載。簡而言之，NVIDIAContainer Toolkit可讓容器存取NVIDIA GPU，讓需要GPU加速的應用程式能更快速、更有效率地執行。

NVIDIA GPU Operator 可在 Kubernetes 環境中協調 GPU 資源，該工具包在現代 AI 與 ML 應用程式中扮演關鍵角色。基本上，它能提升需要 HPC (高效能運算) 處理大量資料任務 (例如 AI 訓練) 的應用程式的效能與效率。

然而，弱點可能會以各種方式引入風險：

未經授權存取 GPU：攻擊者可能取得 GPU 存取權，並造成資料竊取或資源劫持。
權限提升：攻擊者可能會逃出容器，並在主機系統上執行程式碼，以入侵底層基礎架構。
Container 容器攻擊：受攻擊的容器可開啟非法存取其他容器的 GPU 資源。這可能會導致在同一系統上執行的多個應用程式發生資料洩漏或拒絕服務。
敏感資料外洩：攻擊者有時不是直接挖掘敏感資料，而是尋找各種系統元件的漏洞來瀏覽環境和提升權限。Container 技術增加了這些攻擊的複雜性。

潛在攻擊情境

利用 NVIDIAContainer Toolkit 的潛在攻擊流程可以歸納為三個步驟：

建立惡意影像：攻擊者可以設計惡意的容器影像，目的是利用 CVE-2024-0132。
存取主機檔案系統：攻擊者接著會在易受攻擊的平台上執行惡意影像，無論是直接透過共用 GPU 服務或間接透過供應鏈攻擊計畫，或是透過社交工程。這可讓他們掛載主機檔案系統，並在未經授權的情況下存取底層基礎架構，以及可能來自其他使用者的機密資料。
完全控制：透過存取關鍵的 Unix 套接字（docker.sock/containerd.sock），攻擊者可以 root 權限在主機系統上發出任意指令，最終奪取機器的控制權。