生成式AI正在改變我們的生活方式,但也帶來了一些意想不到的后果。加密水印技術(shù)或許能解決這些問題,確保AI生成內(nèi)容的來源可追溯。
人工智能生成的內(nèi)容正在迅速融入我們的日常生活,從工作、學(xué)習(xí)到娛樂和社交,無處不在。然而,隨著AI技術(shù)的普及,一些潛在的風(fēng)險(xiǎn)也逐漸顯現(xiàn)。在這篇文章中,我們將探討一種新興的技術(shù)——加密水印,它有望為AI生成內(nèi)容的安全性提供更強(qiáng)的保障。
生成式AI已經(jīng)能夠創(chuàng)造出高質(zhì)量的文本、代碼、圖像、音頻和視頻,這些內(nèi)容有時(shí)甚至連機(jī)器都難以辨別真?zhèn)巍_@種高度仿真的能力帶來了一系列挑戰(zhàn):一方面,AI模型的訓(xùn)練者和部署者需要識別并過濾掉網(wǎng)絡(luò)上的AI生成內(nèi)容,以避免污染訓(xùn)練數(shù)據(jù);另一方面,這些內(nèi)容的來源可能被故意誤導(dǎo),給社會帶來諸多問題。
水印技術(shù)或許是解決這些問題的關(guān)鍵。通過在訓(xùn)練或推理過程中嵌入一些標(biāo)識信息,我們可以追溯AI生成內(nèi)容的來源。這樣,無論是模型操作者還是內(nèi)容消費(fèi)者,都能通過檢測水印來確認(rèn)內(nèi)容的真實(shí)性。
水印技術(shù)與C2PA(聯(lián)合內(nèi)容真實(shí)性聯(lián)盟)的目標(biāo)有很多相似之處。C2PA致力于為各種媒體提供來源追溯,類似于一條數(shù)字簽名鏈,每個(gè)鏈條對應(yīng)一次內(nèi)容修改。例如,Cloudflare的客戶可以選擇保留C2PA標(biāo)簽,即使在圖像被壓縮后,這些標(biāo)簽仍然有效。
然而,C2PA的方法需要每個(gè)環(huán)節(jié)的參與者都配合,而水印技術(shù)則可以在內(nèi)容被未經(jīng)授權(quán)修改后仍然保留來源信息。與C2PA將簽名編碼在圖像的元數(shù)據(jù)中不同,水印直接嵌入在圖像的像素中。
在這篇文章中,我們將探討一種基于加密技術(shù)的新型水印方法。這種方法旨在提供嚴(yán)格的質(zhì)量保證和抗修改能力。雖然這一領(lǐng)域尚處于起步階段,但我們相信它具有很大的潛力,值得進(jìn)一步研究。
加密技術(shù)在安全領(lǐng)域具有不可替代的作用。它通過一些基本假設(shè),如密鑰的保密性或計(jì)算難題的難度,提供數(shù)學(xué)上的安全保障。對于水印技術(shù)來說,加密技術(shù)可以確保三個(gè)關(guān)鍵目標(biāo):
1. 魯棒性:用戶無法輕易篡改內(nèi)容的來源,即使內(nèi)容經(jīng)過一定程度的修改,水印仍然可驗(yàn)證。
2. 不可檢測性:水印不會顯著影響模型輸出的質(zhì)量,水印內(nèi)容與非水印內(nèi)容無法區(qū)分。
3. 不可偽造性:只有模型操作者能生成帶有水印的內(nèi)容,其他人無法偽造。
目前,一些先進(jìn)的水印技術(shù),如Google的SynthID和Meta的Video Seal,基于深度學(xué)習(xí)。這些方法通過訓(xùn)練機(jī)器學(xué)習(xí)模型,將簽名編碼到內(nèi)容中,并通過一系列已知攻擊來測試模型的魯棒性。然而,這種方法存在一個(gè)問題:新的攻擊手段可能會繞過現(xiàn)有的防護(hù)措施,導(dǎo)致不斷的“貓鼠游戲”。
加密技術(shù)的優(yōu)勢在于,它可以減少攻擊面,使攻擊者難以找到漏洞。通過將攻擊者的注意力集中在一些狹窄的、易于理解的系統(tǒng)特性上,加密技術(shù)可以提供更強(qiáng)的安全保障。
2022年夏天,Scott Aaronson在OpenAI工作期間提出了第一個(gè)加密AI水印方案。這個(gè)方案專門針對聊天機(jī)器人,具有不可檢測性和不可偽造性,但在魯棒性方面存在一些問題。隨后,其他研究者提出了不同的加密水印方案,試圖在這三個(gè)目標(biāo)之間找到平衡。
2024年,Miranda Christ和Sam Gunn在CRYPTO會議上發(fā)表了一篇論文,提出了一個(gè)新的框架,可以同時(shí)實(shí)現(xiàn)這三個(gè)目標(biāo)。他們的方法基于一種稱為偽隨機(jī)碼的技術(shù),這種碼在編碼時(shí)需要使用一個(gè)秘密密鑰,使得攻擊者難以偽造。
生成式AI模型通常需要一些隨機(jī)輸入來生成內(nèi)容。對于許多模型,我們可以通過“逆向運(yùn)行”模型,從生成的內(nèi)容中恢復(fù)出初始的隨機(jī)輸入。這一特性對于水印技術(shù)非常重要。
Christ-Gunn-2024的方法從一種稱為糾錯(cuò)碼的數(shù)學(xué)工具開始。糾錯(cuò)碼通常用于在噪聲環(huán)境中傳輸信息,廣泛應(yīng)用于光纖、衛(wèi)星和量子計(jì)算等領(lǐng)域。通過將信息編碼為碼字,糾錯(cuò)碼可以容忍一定比例的比特翻轉(zhuǎn)。
我們可以利用糾錯(cuò)碼來實(shí)現(xiàn)一個(gè)簡單的水印方案:首先生成初始隨機(jī)輸入,然后將碼字嵌入到這些隨機(jī)輸入中,最后運(yùn)行模型生成內(nèi)容。要驗(yàn)證水印,我們只需“逆向運(yùn)行”模型,提取出碼字,并檢查其是否正確。
這種方法的優(yōu)勢在于,即使攻擊者對內(nèi)容進(jìn)行了一定程度的修改,我們?nèi)匀豢梢酝ㄟ^糾錯(cuò)碼恢復(fù)出正確的碼字。然而,這種方法也存在一些問題:嵌入碼字會改變隨機(jī)輸入的分布,使得水印內(nèi)容與非水印內(nèi)容存在差異。此外,由于編碼算法是公開的,攻擊者可以偽造水印。
為了解決這些問題,Christ-Gunn-2024提出了偽隨機(jī)碼的概念。偽隨機(jī)碼需要滿足兩個(gè)條件:首先,碼字看起來是隨機(jī)的;其次,生成碼字需要使用一個(gè)秘密密鑰。這樣,攻擊者即使知道編碼算法,也無法偽造水印。
偽隨機(jī)碼由三個(gè)算法組成:密鑰生成算法、編碼算法和解碼算法。密鑰生成算法生成一個(gè)秘密密鑰,編碼算法將信息編碼為碼字,解碼算法則從碼字中提取出信息。通過選擇合適的參數(shù),我們可以確保碼字難以與隨機(jī)比特串區(qū)分開來。
要使用偽隨機(jī)碼進(jìn)行水印,模型操作者首先生成一個(gè)秘密密鑰,然后在每次生成內(nèi)容時(shí),將碼字嵌入到初始隨機(jī)輸入中。要驗(yàn)證水印,操作者只需“逆向運(yùn)行”模型,提取出碼字,并檢查其是否正確。
為了確保水印的不可檢測性,我們需要選擇一種嵌入碼字的方法,使其不會改變初始隨機(jī)輸入的分布。具體的嵌入方法取決于模型的特性。以Stable Diffusion為例,我們可以通過設(shè)置初始隨機(jī)輸入的符號來嵌入碼字。
Stable Diffusion是一種用于圖像生成的模型,它使用用戶提供的提示詞對初始隨機(jī)輸入進(jìn)行多次“去噪”處理,最終生成圖像。我們可以通過“逆向運(yùn)行”模型,從生成的圖像中恢復(fù)出初始隨機(jī)輸入,這一過程稱為擴(kuò)散反演。
擴(kuò)散反演是一種迭代過程,通過反向運(yùn)行生成圖像的采樣過程,恢復(fù)出初始隨機(jī)輸入。由于水印基于偽隨機(jī)碼,可以容忍一定的錯(cuò)誤,因此我們可以使用一種稱為DDIM反演的技術(shù),它計(jì)算速度快,但精度較低。
在實(shí)驗(yàn)中,我們使用預(yù)訓(xùn)練的Stable Diffusion模型生成圖像,并通過DDIM反演恢復(fù)出初始隨機(jī)輸入。然后,我們將碼字嵌入到這些隨機(jī)輸入中,并驗(yàn)證水印的魯棒性。結(jié)果顯示,DDIM反演生成的初始隨機(jī)輸入與原始輸入的相似度較高,足以保證水印的魯棒性。
然而,DDIM反演也存在一些局限性,無法完全恢復(fù)出初始隨機(jī)輸入。因此,我們需要進(jìn)一步研究更精確的反演方法,以提高水印的魯棒性。
偽隨機(jī)碼的構(gòu)建方法有很多種,目前已有幾種候選方案。其中一種方法是將糾錯(cuò)碼與加密原語結(jié)合,使得碼字具有偽隨機(jī)性。例如,我們可以使用AES-GCM-SIV加密算法對信息進(jìn)行加密,然后再應(yīng)用糾錯(cuò)碼。然而,這種方法存在一些問題,無法同時(shí)滿足魯棒性和不可檢測性的要求。
Christ-Gunn-2024提出了一種基于LDPC碼的偽隨機(jī)碼構(gòu)建方法。LDPC碼是一種廣泛使用的糾錯(cuò)碼,具有較高的容錯(cuò)能力。通過調(diào)整LDPC碼的參數(shù),我們可以使其生成的碼字具有偽隨機(jī)性,從而實(shí)現(xiàn)水印的不可檢測性。
然而,這種方法的安全性依賴于一些較強(qiáng)的計(jì)算假設(shè),目前尚不清楚其在實(shí)際應(yīng)用中的安全性。此外,LDPC碼的容錯(cuò)能力與其參數(shù)密切相關(guān),過于稀疏或稠密的參數(shù)都會影響其性能。
另一種構(gòu)建偽隨機(jī)碼的方法是基于偽隨機(jī)函數(shù)(PRF)。PRF是一種常見的加密原語,可以生成偽隨機(jī)比特串。通過將PRF與糾錯(cuò)碼結(jié)合,我們可以構(gòu)建一種具有較高魯棒性的偽隨機(jī)碼。然而,這種方法的容錯(cuò)能力較低,難以抵御大量比特翻轉(zhuǎn)的攻擊。
總的來說,偽隨機(jī)碼在AI水印技術(shù)中具有很大的潛力,但目前仍面臨一些挑戰(zhàn)。我們需要進(jìn)一步研究不同的構(gòu)建方法,找到在魯棒性、不可檢測性和不可偽造性之間的平衡點(diǎn)。此外,我們還需要研究更精確的初始隨機(jī)輸入恢復(fù)方法,以提高水印的魯棒性。
我們相信,偽隨機(jī)碼有望成為AI水印技術(shù)的重要組成部分,為生成式AI的安全性提供更強(qiáng)的保障。通過加密技術(shù)與AI技術(shù)的結(jié)合,我們可以實(shí)現(xiàn)更高效、更可靠的水印方案,確保AI生成內(nèi)容的來源可追溯。
本文譯自 cloudflare,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )