運用MetaDefender 偵測人工智慧模型中的惡意軟體

為何惡意人工智慧模型是供應鏈攻擊的下一個前沿MetaDefender 揭露其隱藏的有效載荷。

十月20, 2025 by OPSWAT 發布

分享此文章

人工智慧已成為日常生活的一部分。根據 IDC 的預測，到 2026 年，全球在人工智慧系統上的支出將超過 3,000 億美元，這顯示出人工智慧的應用正在加速。AI 不再是小眾技術，它正在塑造企業、政府和個人的運作方式。

Software 開發人員正逐漸將大語言模型 (Large Language Model, LLM) 功能整合到他們的應用程式中。知名的 LLM，如 OpenAI 的 ChatGPT、Google 的 Gemini 和 Meta 的 LLaMA，現在都已嵌入到商業平台和消費者工具中。從客戶支援聊天機器人到生產力軟體，AI 整合正在提高效率、降低成本，並保持組織的競爭力。

但每一種新技術都會帶來新的風險。我們越依賴 AI，它就越容易成為攻擊者的目標。其中一種威脅的勢頭尤其強大：惡意的 AI 模型，這些檔案看起來像是有用的工具，但卻隱藏著潛藏的危險。

預先訓練模型的隱藏風險

從頭開始訓練一個 AI 模型可能需要花上好幾週的時間、強大的電腦和大量的資料集。為了節省時間，開發人員通常會重複使用透過 PyPI、Hugging Face 或 GitHub 等平台分享的預先訓練模型，通常採用 Pickle 和 PyTorch 等格式。

表面上看來，這是非常合理的。如果模型已經存在，為什麼還要重新製造呢？但問題是：並非所有的模型都是安全的。有些模型會被修改以隱藏惡意程式碼。它們不只是協助語音辨識或圖像偵測，還能在載入時悄悄執行有害指令。

Pickle 檔案尤其具有風險。與大多數資料格式不同，Pickle 不僅可以儲存資訊，也可以儲存可執行程式碼。這意味著攻擊者可以將惡意軟體偽裝在看起來非常正常的模型中，透過看似可信賴的 AI 元件傳送隱藏的後門。

從研究到真實世界的攻擊

預警 - 理論上的風險

AI 模型可能會被濫用來傳送惡意軟體的想法並不新鮮。早在 2018 年，研究人員就發表了《深度學習系統上的模型重複攻擊》（Model-Reuse Attacks on Deep Learning Systems）等研究，顯示來自不受信任來源的預先訓練模型可能會被操控而出現惡意行為。

起初，這似乎只是一個思想實驗--在學術界爭論的「如果」情景。許多人認為它仍然太小眾，無關緊要。但歷史顯示，每項被廣泛採用的技術都會成為目標，人工智慧也不例外。

概念驗證 - 讓風險變得真實

當惡意 AI 模型的真實範例浮現，證明 PyTorch 等以 Pickle 為基礎的格式不僅能嵌入模型權重，還能嵌入可執行程式碼時，理論到實踐的轉變就發生了。

Star23/baller13 是一個引人注目的案例，這個模型在 2024 年 1 月初上傳到 Hugging Face。它包含一個隱藏在 PyTorch 檔案中的反向軀殼，載入它可以讓攻擊者取得遠端存取權，同時仍能讓模型以有效的 AI 模型運作。這突顯了安全研究人員在 2023 年底到 2024 年間積極測試概念驗證。

UI 畫面截圖顯示在 AI 模型中偵測到惡意軟體的警告，掃描為不安全的檔案和 YAML 元資料警告 — 抱抱臉上的 PoC 模特

顯示反向 shell 指令的 Python 程式碼螢幕截圖，說明在 AI 模型中偵測惡意軟體的概念驗證 — 內嵌於 Pytorch 的 Reverse Shell

到了 2024 年，問題已不再是個別事件。JFrog報告有超過 100 個惡意 AI/ML 模型上傳到 Hugging Face，證實這個威脅已從理論進入真實世界的攻擊。

Supply Chain 攻擊 - 從實驗室到野外

攻擊者也開始利用建立在軟體生態系統中的信任。2025 年 5 月，aliyun-ai-labs-snippets-sdk 和 ai-labs-snippets-sdk 等偽造 PyPI 套件模仿阿里巴巴的 AI 品牌，欺騙開發者。雖然這些套件的存活時間不到 24 小時，但卻被下載了約1,600 次，顯示中毒的 AI 元件可以快速滲透供應鏈。

對於安全領導者而言，這代表了雙重風險：