研究人員發(fā)現(xiàn)AI模型可生成真人照片和受版權(quán)保護(hù)的圖片
2025-01-19

來自穩(wěn)定擴(kuò)散的數(shù)據(jù)集,即被稱為LAION的多TB采集圖片集,被用來生成下面的圖片。它使用了數(shù)據(jù)集中指定的標(biāo)題。當(dāng)研究人員在提示框中輸入標(biāo)題時(shí)會(huì)產(chǎn)生了相同的圖像,盡管因數(shù)字噪音而略有扭曲。接下來,研究小組在反復(fù)執(zhí)行相同的提示后,手動(dòng)驗(yàn)證了該圖像是否是訓(xùn)練集的一部分。
研究人員指出,非記憶性的回應(yīng)仍然可以忠實(shí)地表現(xiàn)出模型所提示的文字,但不會(huì)有相同的像素構(gòu)成,并且會(huì)與其它訓(xùn)練生成的圖像不同。
蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)教授和研究參與者Florian Tramèr觀察到了研究結(jié)果的重大局限性。研究人員能夠提取的照片要么在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn),要么在數(shù)據(jù)集中的其他照片中明顯突出。根據(jù)弗洛里安-特拉梅爾的說法,那些不常見的名字或外表的人更有可能被"記住"。
研究人員表示,擴(kuò)散式人工智能模型是最不隱私的一種圖像生成模型。與生成對抗網(wǎng)絡(luò)(GANs),一類較早的圖片模型相比,它們泄露的訓(xùn)練數(shù)據(jù)是前者的兩倍多。這項(xiàng)研究的目的是提醒開發(fā)者注意與擴(kuò)散模型相關(guān)的隱私風(fēng)險(xiǎn),其中包括各種擔(dān)憂,如濫用和復(fù)制受版權(quán)保護(hù)的敏感私人數(shù)據(jù)(包括醫(yī)療圖像)的可能性,以及在訓(xùn)練數(shù)據(jù)容易被提取的情況下易受外部攻擊。研究人員建議的修復(fù)方法是識別訓(xùn)練集中重復(fù)生成的照片,并從數(shù)據(jù)收集中刪除它們。