檔案偽造仍是攻擊者用以繞過傳統安全控制的最有效技術之一。去年,OPSWAT 推出AI 增強型檔案類型偵測引擎,以彌補傳統工具的不足。今年,透過 File Type Detection Model v3,我們將重點放在精確度最重要的檔案類型,以及傳統基於邏輯的系統一直不足之處,進一步提升了這項功能。
OPSWAT File Type Detection Model v3 是專為解決模糊且非結構化檔案可靠分類的特定挑戰而設計,尤其是以文字為基礎的格式,例如腳本、組態檔案和原始碼。與一般分類器不同的是,此模型是專為網路安全使用個案所設計,在這些使用個案中,錯誤分類 shell 腳本或無法偵測到包含內嵌巨集的文件 (例如含有 VBA 程式碼的 Word 檔案),都可能帶來重大的安全風險。
為何真正的檔案類型偵測至關重要
大多數偵測系統依賴三種常見的方法:
- 檔案副檔名:此方法會檢查檔案名稱,根據副檔名(如 .doc 或 .exe)來判斷其類型。此方法快速且廣泛相容於各種平台。但是,它很容易被篡改。惡意檔案可以用看起來安全的副檔名重新命名,而且有些系統會完全忽略副檔名,因此此方法並不可靠。
- 神奇位元組:這是許多結構化檔案 (例如 PDF 或影像) 開頭的固定序列。這種方法透過檢查實際的檔案內容,提高了比檔案擴充碼更高的精確度。缺點是並非所有檔案類型都有明確的位元組模式。魔術位元組也可能被偽造,而且不同工具的標準不一致也可能導致混淆。
- 字元分佈分析:此方法可分析檔案的實際內容來推斷其類型。它特別有助於識別結構鬆散的文字格式,例如腳本或組態檔案。雖然它能提供更深入的洞察力,但處理成本較高,而且可能會產生內容異常的誤判。對於缺乏可讀字元模式的二進位檔案,它的效果也較差。
這些方法對於結構化格式很有效,但應用在非結構化或以文字為基礎的檔案時,就變得不可靠。例如,具有最少指令的 shell 腳本可能與純文字檔案非常相似。許多這樣的檔案缺乏強大的標頭或一致的標記,使得基於位元組模式或延伸欄位的分類變得不足。攻擊者利用這種模糊性將惡意指令碼偽裝成無害的文件或日誌。
TrID 和 LibMagic 等傳統工具並非針對這種微妙程度而設計。雖然對一般檔案分類很有效,但它們是為了廣度和速度而最佳化,而不是為了安全限制下的專門檢測。
檔案類型偵測模型 v3 如何運作
檔案類型偵測模型 v3 的訓練過程包含兩個階段。在第一階段,使用 Masked Language Modeling (MLM) 執行領域適應性預訓,讓模型學習特定領域的語法和結構模式。在第二階段,模型會在有監督的資料集上進行微調,其中每個檔案都明確註明其真正的檔案類型。
資料集是一般檔案與威脅樣本的精選組合,可確保在真實世界的準確性與安全相關性之間取得強大的平衡。OPSWAT 可維持對訓練資料的控制,持續改善對安全作業最重要的格式。
AI 元件的應用是精準而非廣泛的。檔案類型偵測模型 v3 專注於傳統偵測方法無法有效處理的模糊與非結構化檔案類型,例如腳本、日誌,以及結構不一致或不存在的鬆散格式化文字。平均推論時間維持在 50 毫秒以下,因此對於跨安全檔案上傳、端點強制執行和自動化管道的即時工作流程非常有效率。
基準結果
我們使用大型且多樣化的資料集,將OPSWAT 檔案類型偵測引擎與領先的檔案類型偵測工具進行比較。比較結果包括 248,000 個檔案和約 100 種檔案類型的 F1 得分。
OPSWAT File Type Detection Engine 整合了多種技術,包括 TrID、LibMagic,以及OPSWAT本身的技術,例如進階解析器和 File Type Detection Model v3。 這種結合的方法可針對結構化和非結構化格式提供更強大且更可靠的分類。
在基準測試中,該引擎的整體精確度比任何單一工具都高。雖然 TrID、LibMagic 和 Magika v3 在某些領域表現良好,但當檔案標頭遺失或內容含糊不清時,其準確度就會下降。透過將傳統的偵測與深入的內容分析分層,即使結構薄弱或故意誤導,OPSWAT 也能維持一致的效能。
文字與腳本檔案
文字和以腳本為基礎的格式常涉及檔案傳播威脅和橫向移動。我們對 169,000 個檔案進行了集中測試,這些檔案格式包括 .sh、.py、.ps1、
和 .conf
.
TrID 和 LibMagic 在偵測這些非結構化檔案時顯示出限制。當檔案內容偏離預期的位元組模式時,它們的效能會迅速下降。
檔案類型偵測模型 v3 vs Magika v3
我們使用相同的 500,000 個檔案資料集,針對 30 種文字與腳本檔案類型,評估OPSWAT File Type Detection Model v3 與 Magika v3(Google 的開放原始碼 AI 分類器)。
主要觀察:
- 檔案類型偵測模型 v3 在幾乎所有格式上的表現都與 Magika 不相伯仲,甚至更勝一籌。
- 收益最強勁的是定義鬆散的格式,例如
.bat、.perl、.html、
和 .xml.
- 與專為一般用途識別而設計的 Magika 不同,File Type Detection Model v3 已針對高風險格式進行最佳化,在這些格式中,錯誤分類會造成嚴重的安全影響。
頂級使用案例
Secure 檔案上傳、下載與傳輸
防止偽裝或惡意檔案透過網站入口、電子郵件附件或檔案傳輸系統進入您的環境。AI 增強偵測功能超越副檔名和 MIME 標頭,可辨識重命名檔案內的指令碼、巨集或內嵌的可執行程式。
DevSecOps 管線
在不安全的工件污染您的軟體建置或部署環境之前阻止它們。MetaDefender Core 可根據實際內容驗證真正的檔案類型,確保只有經過核准的格式才能通過 CI/CD 管道,降低供應鏈攻擊的風險,並維持安全開發實務的合規性。
合規執行
準確的檔案類型偵測對於符合 HIPAA、PCI DSS、GDPR 和 NIST 800-53 等法規要求至關重要,這些法規要求嚴格控制資料完整性和系統安全性。偵測並阻擋偽造或未經授權的檔案類型有助於強制執行政策,以防止敏感資料外洩、維持稽核就緒狀態,並避免昂貴的處罰。
最後的思考
Magika 等一般用途的檔案分類器對於廣泛的內容分類非常有用。但在網路安全方面,精確度比覆蓋範圍更重要。一個錯誤分類的腳本或錯誤標示的巨集,可能就是控制與入侵之間的差異。
OPSWAT File Type Detection 引擎可提供這種精確度。透過結合人工智能增強的檔案類型分析與經過驗證的偵測方法,它可在傳統工具失敗時提供可靠的分類層,尤其是在含糊不清或非結構化格式的情況下。這並非要取代一切,而是要透過即時、情境感知的偵測,強化安全堆疊中的關鍵弱點。