受信賴的檔案格式內藏的隱藏危險
PDF 格式是企業環境中最受信賴且最廣泛使用的文件格式之一。人們每天都會透過電子郵件、檔案共享平台及協作工具來傳輸這些檔案。正因這種信任,PDF 已成為網路釣魚活動、惡意軟體傳播及社會工程攻擊中最常被濫用的攻擊載體之一。
根據Check Point Research 的研究,22% 的基於檔案的網路攻擊利用 PDF 作為傳遞載體,而 68% 的網路攻擊源自收件匣。較少人了解的是,PDF 並非僅是可見內容的容器。它們是具有明確內部架構的結構化文件,而不同閱讀器、安全工具及 AI 系統對該架構的解析方式各不相同。
這種變異性並非錯誤。這是設計上的特性,而精明的攻擊者已學會利用此特性,且無需依賴任何漏洞、攻擊套件或進階工具。
了解 PDF 結構
要了解串接攻擊的運作原理,首先必須了解 PDF 解析器是如何讀取文件的。
當 PDF 閱讀器開啟檔案時,會遵循一組既定的步驟:先定位最後的檔案結尾標記,讀取 startxref 指標,利用該指標定位交叉參照 (xref) 表與尾部資料,然後透過解析物件偏移量來重建文件。此設計是刻意為之,讓閱讀器無需掃描整個檔案,即可立即在大型文件中定位物件。

PDF 規格還定義了一種稱為「增量更新」的機制,此機制允許在不重新寫入整個檔案的情況下修改文件。變更內容會附加在文件末尾,且每次更新都會新增物件、新的外部參考表、新的尾部資訊,以及新的檔案結尾標記。

由於這種設計,一份有效的 PDF 檔案可能正當包含多個 xref 表格、多個尾部資料區以及多個檔案結尾標記。大多數現代解析器都能正確處理這種結構。但這種結構上的靈活性,也為篡改行為提供了可測量的機會。
串接技術
在進行內部資安研究時OPSWAT 將兩個完全獨立的 PDF 檔案併合為單一檔案後,產生的文件會被不同的解析器以根本不同的方式解讀。這起初僅是結構上的奇特現象,卻揭示了一種具有實質意義且可重現的規避技術,而此技術此前幾乎未曾被深入探討。最終產生的檔案包含兩個獨立的文件結構,每個結構皆擁有各自的標頭、交叉引用表、尾部資訊及檔案結尾標記。
從概念上來說,這與先前在壓縮檔中觀察到的解析器利用技術相似,該技術利用結構上的模糊性來掩蓋惡意內容,使其躲過安全工具的偵測。就 PDF 檔案而言,其影響更為深遠:不僅安全掃描工具對檔案內容的判定存在分歧,而且使用者最終在 PDF 閱讀器中看到的版本,可能與經過檢查的版本截然不同。

由於不同的 PDF 閱讀器採用不同的解析策略,同一個串接後的檔案,根據開啟它的應用程式不同,顯示的內容可能會截然不同。
不同的應用,不同的內容
我們利用兩個 PDF 區段製作了一個概念驗證:第一個區段指示繪製一個矩形,第二個區段則指示繪製一個圓。
常見的 PDF 閱讀器(包括 Adobe Reader、Foxit Reader、Chrome 及 Microsoft Edge)會定位檔案中的最後一個 startxref 指標,該指標指向附加(第二份)文件的結構。它們會渲染 circle 指令。

Microsoft Word 和 Teams Preview 採用不同的解析策略,並解析出首個文件結構。它們會渲染矩形指令,而使用者在 Adobe Reader 中無法看到該指令。

對病毒偵測的實際影響
透過使用OPSWAT 平台進行直接測試,已驗證此結構性模糊性所帶來的安全影響;該平台整合了來自多個防毒引擎的檢測結果。
步驟 1:原始釣魚 PDF 檔案
一份包含網路釣魚內容及惡意超連結的 PDF 檔案被提交至 34 個防毒引擎。其中 8 個引擎正確識別出了惡意內容。

步驟 2:將 PDF 檔案與一個乾淨的預置文件合併
在釣魚 PDF 檔案前附加了一個乾淨的空白 PDF 檔案,以產生一個合併文件。該合併檔案隨後提交至相同的 34 個分析引擎。

偵測率從 34 個引擎降至 5 個。其中三個防毒引擎不再識別該威脅。最可能的解釋是,這些引擎僅處理了檔案中的第一個文件結構(其中包含未受感染的 PDF),而未遍歷存放惡意內容的第二個結構。
然而,從使用者的角度來看,風險卻絲毫未變。當在 Adobe Reader 中開啟該合併檔案時,釣魚網頁的顯示效果完全符合攻擊者的預期。

人工智慧系統如何解讀串接文件
隨著人工智慧驅動的文件處理逐漸融入企業工作流程,這種結構性模糊性帶來了一種有別於傳統惡意軟體傳播的全新風險類別。企業越來越依賴大型語言模型來分析文件、提取資訊並輔助決策。若這些系統解讀的文件版本與人類使用者所見的版本不同,其後果將遠不止於錯過一個釣魚連結。
透過使用同一份串接後的 PDF 檔案進行測試,結果顯示,主要的人工智慧平台會依照與傳統閱讀器應用程式中觀察到的相同、取決於解析器的邏輯來解讀該檔案。
GPT:解讀第一部分
GPT 解析了檔案中的第一個文件結構,並從隱藏的前置區段中擷取了內容。它讀取並執行了矩形指令,而這部分內容並非使用者在 Adobe Reader 中開啟檔案時所能看到的內容。

雙子座與克勞德:解讀第二(可見)部分
Gemini 和 Claude 都解析了第二份文件的結構,並提取了與使用者在 Adobe Reader 中所見內容一致的內容。雖然從使用者體驗的角度來看,這是預期的行為,但這也顯示出 AI 系統與傳統閱讀器一樣,在結構解析方面存在差異。


此差異對若干高優先級風險情境具有直接影響:
- 提示注入:攻擊者將隱蔽指令嵌入串接 PDF 檔案中隱藏的第一個區段。使用者看到的是一份正常的文件。負責解析該結構的人工智慧系統會接收指令,導致其行為偏離預定模式,而使用者或審閱者卻完全無法察覺。
- 訓練資料中毒:用於微調或擴增 AI 模型的文件可能包含隱藏部分,能在不觸發偵測的情況下,將對抗性內容引入訓練資料庫中。
- 合規與稽核疏失:用於文件審閱、合約分析或監管報告的人工智慧系統,可能會處理一份與律師或合規人員審閱版本存在重大差異的文件,從而造成隱性的治理缺口。
對於法律顧問、企業法律顧問、隱私官及合規團隊而言,人工智慧系統在未經人類審查、且未被任何安全工具標記的情況下對內容採取行動,這並非理論上的假設。透過串接技術,這種情況變得輕而易舉。
OPSWAT 如何OPSWAT 串接 PDF 攻擊
Deep CDR™ 技術:在威脅尚未出現前即予以消除的檔案淨化技術
OPSWAT CDR™ 技術將每個檔案皆視為潛在的惡意檔案。與其嘗試偵測特定的惡意模式,Deep CDR™ 技術會將每個檔案進行拆解,依據官方格式規範驗證其內部結構,移除所有不符合規範或超出既定政策範圍的元素,並重新生成一個乾淨且完全可用的檔案。此方法從結構根源上解決了串接式 PDF 攻擊的問題。
Deep CDR™ 技術透過其「檔案結構驗證」功能,可有效防範此類攻擊手法。在處理拼接而成的 PDF 檔案時,Deep CDR™ 技術會識別出結構異常:即檔案中存在多個獨立的文件結構、多個外部參照表、多個尾部資料區,以及多個檔案結尾標記,且此配置不符合有效單一 PDF 文件的規範。隨後,該技術會移除這些衝突元素,並僅從經過驗證且安全的內容層重新建構文件。
Deep CDR™ 技術實際能移除什麼
以下來自MetaDefender 針對該串接式釣魚 PDF 檔案的 Deep CDR™ 技術分析結果。在配置並應用 Deep CDR™ 技術後,系統成功識別並針對每個違反預期檔案結構或安全政策的元素採取了相應措施。

如圖所示,Deep CDR™ 技術對合併後的 PDF 執行了以下操作:
- 已移除 2 個超連結:文件中的惡意釣魚連結已在檔案傳送至使用者之前被移除。
- 已清理 1 張圖片:該嵌入式圖片曾被用作釣魚誘餌中的視覺誘餌,現已遭清理。
- 已移除 3 個未使用物件:系統已識別並移除了來自隱藏的第一份文件結構中的孤立物件,這些物件已不再屬於任何有效的文件層。
生成的輸出是一份結構清晰的 PDF 檔案,不僅完整保留了與業務相關的內容,更能通過檔案格式規範的驗證。關鍵在於,使用者收到的檔案、防病毒引擎掃描的檔案,以及任何下游 AI 系統處理的檔案,都是完全一致的:一份經過驗證的單一文件,其中不包含隱藏結構、惡意連結,亦無任何違反政策規範的物件。
彈性消毒模式
在必須兼顧安全性與易用性的環境中,Deep CDR™ 技術會以「彈性淨化模式」運作。系統不會直接封鎖檔案,而是執行結構重建:移除存在衝突的文件段落,剔除所有活躍且可能具有惡意性質的物件,並重新生成符合政策規範的乾淨 PDF 檔案,再傳送給使用者。如此一來,既能維持使用者體驗,又能消除攻擊面。
消毒詳情報告
每份經由 Deep CDR™ 技術處理的檔案,都會產生一份鑑識性清理報告,記錄哪些物件被識別出來、採取了哪些行動,以及原因為何。如圖 11 所示,此報告提供了針對每項結構異常及政策違規所採取措施的完整稽核軌跡。 對於合規主管、隱私主管及法律顧問而言,此報告是經文件記錄的證明,顯示進入環境的檔案均依照一致且可驗證的安全政策進行處理,且任何偏離預期檔案結構的情況均已記錄並予以修正。
Adaptive Sandbox:無死角的結構感知分析
雖然 Deep CDR™ 技術透過淨化與重建文件來降低風險,但OPSWAT Adaptive Sandbox Aether) 則從根本上截然不同的角度來解決問題:它會對檔案內所有可能的文件結構進行深度行為分析。Deep CDR™ 技術是在檔案送達使用者之前就消除威脅,而Adaptive Sandbox 是在受控環境中Sandbox 檔案,並精確觀察其設計用途。
針對串接的 PDF 檔案Adaptive Sandbox 依賴單一解析器的解讀結果。相反地,它透過結構感知分析來識別檔案實際上是由多個有效的 PDF 文件串接而成。這Sandbox 直接防止攻擊者利用解析器不一致之處來隱藏惡意內容。分析過程分為三個階段:
1.提取:每個 嵌入的 PDF 文件均會從串接結構中分別提取出來。不會將任何文件層視為權威版本。二進位流中存在的每個區段都會被識別並隔離,以便進行獨立檢查。

2.分析:每個 擷取的文件都會在受控的模擬環境中獨立進行分析。Adaptive Sandbox 內容、監控執行時行為,並偵測任何惡意活動,包括網路回調、腳本執行、有效載荷釋放,以及企圖利用渲染應用程式的行為,無論該行為源自哪個文件層級。

關聯分析:各獨立分析的結果會與原始檔案進行關聯比對,從而得出反映完整串接文件真實行為意圖的統一判定。從各層級擷取的入侵指標會整合成一份單一鑑識報告,以支援威脅情報、事件應變及安全營運中心(SOC)的工作流程。

其結果是形成了一幅毫無死角的完整分析圖景。每個嵌入的文件都會被分析,每條物件鏈都會被檢查。解析器無法利用任何漏洞。攻擊者無法指望某個應用程式只看到乾淨的層級,而惡意層級卻未被檢查,因為Adaptive Sandbox 這種區分。它會檢查一切。

多層次偵測,實現全面防禦
Deep CDR™ 技術與Adaptive Sandbox 從相反方向Sandbox 串接 PDF 檔案的威脅,兩者結合可徹底封鎖所有可行的攻擊路徑。 Deep CDR™ 技術在檔案傳送前即消除威脅:使用者收到的文件結構完整,不含隱藏區段、惡意連結或違反政策之物件。Adaptive Sandbox 傳送前或傳送過程中Sandbox 威脅意圖:每層文件皆會被執行,每項行為皆被監控,所有入侵指標皆被擷取並記錄。
對於在高風險環境中運作的組織而言,這項組合尤為強大。Deep CDR™ 技術可確保送達用戶的文件無法執行隱藏的邏輯。Adaptive Sandbox 每份文件(包括串接檔案的每一層)的行為意圖皆能被準確解析。這兩項技術均無需預先掌握特定的攻擊手法即可發揮效用。它們皆是根據檔案結構及其內容的行為進行運作,而非依賴已知的簽名或威脅情報來源。
結束語
「串接 PDF」攻擊技術揭示了一種威脅類型,而基於偵測的安全機制原本並非為應對此類威脅所設計。此攻擊既無惡意軟體簽名可供偵測,也無漏洞可被發現。它僅是透過合法檔案格式的結構性安排,導致不同系統呈現出截然不同的內容。
對 IT 經理和主管而言,其對營運的影響顯而易見:目前部署的掃描工具所評估的文件版本,可能與使用者開啟的版本不同。
對合規與風險管理人員而言,這意味著存在治理缺口:檔案安全的稽核軌跡可能無法反映實際傳輸的內容。
對於高階主管而言,財務風險極為顯著,成功釣魚攻擊的平均成本現已超過 488 萬美元,而那些能規避標準防護措施的攻擊,其修復成本更是居高不下。
對於法律顧問、企業法律顧問及隱私權主管而言,人工智慧系統在未經人工審查或缺乏安全可視性的情況下,依據文件中隱藏的內容進行操作,已構成一種新興且重大的風險。
OPSWAT CDR™ 技術與Adaptive Sandbox 從雙向角度Sandbox 這項漏洞。Deep CDR™ 技術透過驗證檔案結構、移除所有隱藏及衝突的文件區段,並重新生成經過驗證的乾淨輸出,從而消除導致此類威脅存在的結構性條件,確保進入環境的每個檔案所攜帶的內容與經檢查的內容完全一致。Adaptive Sandbox 無一遺漏:透過對每個嵌入式文件層進行結構感知分析、獨立執行各層,並將結果與原始檔案進行關聯,它能揭露威脅的行為意圖,而這正是任何解析器技巧都無法隱藏的。這兩項技術相輔相成,確保使用者接收的內容安全無虞,同時也徹底釐清攻擊者設計該檔案的真正目的。
其他資源
- 查看OPSWAT 產品組合
- 下載資料表:Deep CDR™ 技術與 Adaptive Sandbox
