展會(huì)信息港展會(huì)大全

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-23 18:47:38   瀏覽:192次  

導(dǎo)讀:機(jī)器之心報(bào)道機(jī)器之心編輯部螞蟻數(shù)科、浙江大學(xué)、利物浦大學(xué)和華東師范大學(xué)團(tuán)隊(duì):構(gòu)筑更好的大模型隱私保護(hù)。要讓大模型適應(yīng)各不一樣的下游任務(wù),微調(diào)必不可少。常規(guī)的中心化微調(diào)過程需要模型和數(shù)據(jù)存在于同一位置  要么需要數(shù)據(jù)所有者上傳數(shù)據(jù)(這會(huì)威脅到數(shù)據(jù)所有者的數(shù)據(jù)隱私),要么模型所有者需要共享模型權(quán)重(這又可能泄露自己花費(fèi)大量資源訓(xùn)練的模型)。此外,在 ......

機(jī)器之心報(bào)道

機(jī)器之心編輯部

螞蟻數(shù)科、浙江大學(xué)、利物浦大學(xué)和華東師范大學(xué)團(tuán)隊(duì):構(gòu)筑更好的大模型隱私保護(hù)。

要讓大模型適應(yīng)各不一樣的下游任務(wù),微調(diào)必不可少。常規(guī)的中心化微調(diào)過程需要模型和數(shù)據(jù)存在于同一位置  要么需要數(shù)據(jù)所有者上傳數(shù)據(jù)(這會(huì)威脅到數(shù)據(jù)所有者的數(shù)據(jù)隱私),要么模型所有者需要共享模型權(quán)重(這又可能泄露自己花費(fèi)大量資源訓(xùn)練的模型)。此外,在第二種情況下,模型的參數(shù)可能暴露,這可能會(huì)增加其微調(diào)模型受到攻擊的可能性。這些問題都可能阻礙 LLM 的長期發(fā)展。

為了有效地保護(hù)模型所有權(quán)和數(shù)據(jù)隱私,浙江大學(xué)、螞蟻數(shù)科、利物浦大學(xué)和華東師范大學(xué)的朱建科與王維團(tuán)隊(duì)提出了一種全新的跨域微調(diào)(offsite-tuning)框架:ScaleOT。該框架可為模型隱私提供多種不同規(guī)模的有損壓縮的仿真器,還能促進(jìn)無損微調(diào)(相比于完整的微調(diào))。該研究論文已被人工智能頂會(huì) AAAI 2025 錄用。第一作者為姚凱(螞蟻摩斯高級(jí)算法工程師,浙大博后),通訊作者為朱建科教授與王維老師。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

論文標(biāo)題:ScaleOT: Privacy-utility-scalable Offsite-tuning with Dynamic LayerReplace and Selective Rank Compression

論文地址:https://arxiv.org/pdf/2412.09812

原生跨域微調(diào)的不足之處

如下圖 2(b) 所示,跨域微調(diào)(OT)不是使用完整的模型進(jìn)行訓(xùn)練,而是允許數(shù)據(jù)所有者使用模型所有者提供的有損壓縮仿真器進(jìn)行微調(diào),但這種范式有個(gè)缺點(diǎn):會(huì)讓數(shù)據(jù)所有者得到的仿真器的性能較差。然后,訓(xùn)練得到的適配器會(huì)被返回給模型所有者,并被插入到完整模型中,以創(chuàng)建一個(gè)高性能的微調(diào)模型。特別需要指出,數(shù)據(jù)所有者和模型所有者端之間的模型性能差異是模型隱私的關(guān)鍵因素,這會(huì)促使下游用戶使用微調(diào)的完整模型。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

因此,跨域微調(diào)的主要難題在于高效壓縮 LLM,通過在維持性能差異的同時(shí)提升微調(diào)的完整模型,從而實(shí)現(xiàn)對(duì)模型隱私的保護(hù)。

遵循跨域微調(diào)策略,原生 OT 方法采用的策略是 Uniform LayerDrop(均勻?qū)觼G棄),從完整模型中均勻地刪除一部分層,如圖 1(a)所示。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

圖 1:分層壓縮策略比較。(a)Uniform LayerDrop;(b)帶估計(jì)的重要性分?jǐn)?shù)的 Dynamic LayerDrop;(c)帶協(xié)調(diào)器的 Dynamic LayerReplace;(d)使用不同壓縮比的結(jié)果。新方法在所有者端實(shí)現(xiàn)了更好的性能,同時(shí)保持了性能差異。

然而,盡管大型模型中的許多參數(shù)是冗余的,但每層的重要性差異很大,這種均勻刪除可能會(huì)導(dǎo)致適應(yīng)后的完整模型的性能下降。此外,直接的層刪除會(huì)導(dǎo)致被刪除層的輸入和輸出隱藏空間之間錯(cuò)位,這也會(huì)導(dǎo)致所有者端的性能下降。雖然知識(shí)蒸餾可以緩解這個(gè)問題,但訓(xùn)練一個(gè)所需的仿真器的成本至少是 LLM 大小的一半,這意味著巨大的訓(xùn)練成本為提供具有不同壓縮比的仿真器帶來了重大缺陷。

ScaleOT 實(shí)現(xiàn)

框架設(shè)計(jì)和創(chuàng)建過程

如圖 2 (c) 所示,該框架由兩個(gè)階段組成:重要性估計(jì)和仿真器生成。

對(duì)于第一階段,該團(tuán)隊(duì)提出了一種基于重要性感知型層替換的算法 Dynamic LayerReplace,該算法需要使用一種強(qiáng)化學(xué)習(xí)方法來確定 LLM 中每一層的重要性。同時(shí),對(duì)于不太重要的層,動(dòng)態(tài)選擇并訓(xùn)練一組可訓(xùn)練的協(xié)調(diào)器作為替代,這些協(xié)調(diào)器是輕量級(jí)網(wǎng)絡(luò),可用于更好地實(shí)現(xiàn)剩余層的對(duì)齊。

在第二階段,根據(jù)學(xué)習(xí)到的重要性得分,可將原始模型層及其對(duì)應(yīng)的協(xié)調(diào)器以各種方式組合到一起,從而得到仿真器(emulator),同時(shí)還能在模型所有者端維持令人滿意的性能,如圖 1 (d) 所示。

他們根據(jù)實(shí)踐經(jīng)驗(yàn)發(fā)現(xiàn),如果使用秩分解來進(jìn)一步地壓縮剩余的模型層,還可以更好地實(shí)現(xiàn)隱私保護(hù),同時(shí)模型的性能下降也不會(huì)太多。基于這一觀察,該團(tuán)隊(duì)提出了選擇性秩壓縮(SRC)方法。

該團(tuán)隊(duì)進(jìn)行了大量實(shí)驗(yàn),涉及多個(gè)模型和數(shù)據(jù)集,最終證明新提出的方法確實(shí)優(yōu)于之前的方法,同時(shí)還能調(diào)整壓縮后仿真器模型的大小以及 SRC 中的秩約簡率。因此,這些新方法的有效性和可行性都得到了驗(yàn)證。

總結(jié)起來,該團(tuán)隊(duì)的這項(xiàng)研究做出了三大貢獻(xiàn):

提出了一種靈活的方法,可為跨域微調(diào)得到多種大小的壓縮版模型:提出了一種重要性感知型有損壓縮算法 Dynamic LayerReplace,該算法面向使用 LLM 的跨域微調(diào),可通過強(qiáng)化學(xué)習(xí)和協(xié)調(diào)器來擴(kuò)展仿真器。這些組件可以實(shí)現(xiàn)靈活的多種規(guī)模的壓縮模型生成。

僅需一點(diǎn)點(diǎn)微調(diào)性能下降,就能通過進(jìn)一步的壓縮獲得更好的隱私:新提出的選擇性秩壓縮策略僅需少量性能損失就能進(jìn)一步提升模型隱私。

全面的實(shí)驗(yàn)表明,新提出的 ScaleOT 優(yōu)于當(dāng)前最佳方法。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

基于 Transformer 架構(gòu)設(shè)計(jì)跨域微調(diào)

更具實(shí)用性

這篇論文關(guān)注的重點(diǎn)是基于 Transformer 架構(gòu)來設(shè)計(jì)跨域微調(diào)。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

為了保護(hù)模型的隱私,需要對(duì)保持不變的組件 E 執(zhí)行一次有損壓縮,這會(huì)得到一個(gè)仿真器 E*,從而可通過更新 A 來促進(jìn)模型微調(diào)。

待完成在數(shù)據(jù)所有者端的訓(xùn)練后,更新后的適應(yīng)器 A′ 會(huì)被返回到模型所有者端并替換 M 中的原來的 A。于是可將最終更新后的 LLM 表示為 M′ = [A′, E]。值得注意的是,有損壓縮必定會(huì)限制下游用戶的 [A′, E] 模型性能,但卻實(shí)現(xiàn)了對(duì)模型所有權(quán)的保護(hù)。

這篇論文解決了該問題的兩個(gè)關(guān)鍵:獲得 A 和 E 的適當(dāng)劃分以及實(shí)現(xiàn)從 E 到 E 的更好壓縮,從而實(shí)現(xiàn)有效的微調(diào)并保持隱私。

對(duì)于前者,該團(tuán)隊(duì)在模型層上引入了重要性分?jǐn)?shù)(importance score),可用于引導(dǎo) A 和 E 的選擇。具體而言,在用輕量級(jí)網(wǎng)絡(luò)動(dòng)態(tài)替換原始層的過程中,可通過強(qiáng)化學(xué)習(xí)來估計(jì)重要性分?jǐn)?shù)。

這些輕量級(jí)網(wǎng)絡(luò)(稱為協(xié)調(diào)器 /harmonizer)可以進(jìn)一步用作 E 中各層的替代,從而提高完整版已適應(yīng)模型的性能。此外,對(duì)于 E 中被協(xié)調(diào)器替換的其余層,該團(tuán)隊(duì)還提出了選擇性秩壓縮(selective rank compression)方法,該方法在保持完整版已適應(yīng)模型性能的同時(shí)還能保證更好的隱私。

重要性感知型動(dòng)態(tài)層替換

該團(tuán)隊(duì)提出了一種全新的基于層替換的壓縮算法:Dynamic LayerReplace(動(dòng)態(tài)層替換)。其目標(biāo)是估計(jì) LLM 中每層的重要性,并用輕量級(jí)網(wǎng)絡(luò)(稱為協(xié)調(diào)器)替換不太重要的層,以保持層之間的語義一致性。為此,他們采用了一種雙過程方法,其中包括使用強(qiáng)化學(xué)習(xí) (RL)來評(píng)估每個(gè) LLM 層的重要性,使用深度學(xué)習(xí)(DL)來通過梯度下降訓(xùn)練協(xié)調(diào)器。在訓(xùn)練階段,這些過程交替迭代以保持穩(wěn)定性。

從數(shù)學(xué)形式上看,首先將 LLM 記為 M。然后對(duì)重要性分?jǐn)?shù) S 和協(xié)調(diào)器進(jìn)行初始化。用于預(yù)訓(xùn)練的數(shù)據(jù)集的兩個(gè)子集會(huì)被用作訓(xùn)練集 D^T 和驗(yàn)證集 D^V ,它們與下游任務(wù)無關(guān)。在訓(xùn)練過程中,利用 RL 更新 S 并通過 DL 訓(xùn)練 H,同時(shí)保持 M 不變。下面將介紹 RL 的基本動(dòng)作 LayerReplace 采樣,并描述如何獲得重要性分?jǐn)?shù)。

LayerReplace 采樣。首先,需要將 RL 過程的狀態(tài)空間定義為網(wǎng)絡(luò)內(nèi)層的配置,其中包含了原有層和協(xié)調(diào)器。是否用相應(yīng)的協(xié)調(diào)器替換特定層  這個(gè)決定將用作動(dòng)作,會(huì)受到基于每層重要性分?jǐn)?shù)的動(dòng)作策略 π_i 的影響:

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

選擇性秩壓縮

該團(tuán)隊(duì)通過大量研究發(fā)現(xiàn),大語言模型的參數(shù)數(shù)量遠(yuǎn)超過實(shí)際需要,即使去掉一部分參數(shù)也不會(huì)顯著影響模型的整體性能。

基于這一發(fā)現(xiàn),該團(tuán)隊(duì)提出了一種通過低秩近似壓縮仿真器權(quán)重的方法來增強(qiáng)模型的隱私保護(hù)功能。當(dāng)權(quán)重的高階分量被降低時(shí),仿真器的表達(dá)能力會(huì)相應(yīng)減弱,從而產(chǎn)生更大的性能差距。同時(shí),剩余的低階權(quán)重分量仍然可以為調(diào)優(yōu)過程中的適配器更新提供近似梯度方向。

對(duì)特定模塊的秩壓縮策略

Transformer 模型的每一層主要由兩個(gè)部分組成:多頭自注意力層 (MHSA) 和前饋神經(jīng)網(wǎng)絡(luò)層 (FFN)。MHSA 負(fù)責(zé)處理詞元之間的交互,而 FFN 則進(jìn)一步處理單個(gè)詞元內(nèi)的信息轉(zhuǎn)換。為了提升表達(dá)能力,F(xiàn)FN 的隱藏維度通常設(shè)置得很高,是輸入輸出維度的 2.5 到 4 倍。

考慮到 FFN 本身就具有高秩的特性,該團(tuán)隊(duì)提出了一種策略  只對(duì) MHSA 層的權(quán)重進(jìn)行秩壓縮,以增強(qiáng)模型的隱私保護(hù)。

如圖 3 所示,實(shí)驗(yàn)表明,如果對(duì)所有層 (MHSA+FFN) 或僅對(duì) FFN 進(jìn)行秩壓縮,都會(huì)導(dǎo)致模型和數(shù)據(jù)性能的指數(shù)級(jí)下降。相比之下,僅對(duì) MHSA 層進(jìn)行秩壓縮時(shí)。雖然會(huì)使仿真器性能快速下降,但對(duì)插件性能的影響較小,尤其是在壓縮比大于 0.6 時(shí)。因此,研究團(tuán)隊(duì)選擇了對(duì)仿真器中的 MHSA 層進(jìn)行秩壓縮的策略。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

創(chuàng)建保護(hù)隱私且實(shí)用的仿真器既要滿足保護(hù)隱私,還具備擴(kuò)展性的仿真器的設(shè)計(jì)基于三個(gè)核心參數(shù):調(diào)整層數(shù)量 (Na)、協(xié)調(diào)器替換比例 (α) 和結(jié)構(gòu)秩壓縮比例 (β)。這些參數(shù)共同決定了如何使用大語言模型 (M)、重要性分?jǐn)?shù) (S) 和協(xié)調(diào)器 (H) 來創(chuàng)建仿真器 (E),從而在保護(hù)隱私和保持模型性能之間取得平衡。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

ScaleOT 效果評(píng)估

更好的性能,更優(yōu)的模型隱私

該團(tuán)隊(duì)首先在中等大小的模型(包括 GPT2-XL 和 OPT-1.3B,大約 10 億參數(shù)量)上評(píng)估了他們提出的 ScaleOT,如表 1 所示。所有方法都滿足了跨域微調(diào)的條件,即插件的性能超過了完整模型的零樣本和仿真器微調(diào)的性能。此外,沒有 SRC 的 ScaleOT 幾乎實(shí)現(xiàn)了與完整微調(diào)相當(dāng)?shù)臒o損性能。這突出了動(dòng)態(tài)層替換與基線 OT 中使用的 Uniform LayerDrop 相比的有效性。

值得注意的是,由于選擇了重要的層進(jìn)行更新,插件的性能可以超過直接在 LLM 上進(jìn)行微調(diào)的性能,這得益于稀疏訓(xùn)練帶來的更好收斂性。最后,SRC 的加入顯著降低了仿真器零樣本和微調(diào)的性能,平均降低了 9.2% 和 2.2%,而插件的性能幾乎沒有下降?傮w而言,ScaleOT 不僅實(shí)現(xiàn)了更好的性能,還確保了良好的模型隱私。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

隨后,該團(tuán)隊(duì)驗(yàn)證了他們提出的 ScaleOT 在更大的 LLM 上的有效性,包括擁有大約 70 億參數(shù)的 OPT-6.7B 和 LLaMA-7B。如表 2 所示,由于在有限的硬件上無法執(zhí)行知識(shí)蒸餾,OT 未能達(dá)到令人滿意的性能。CRaSh 通過 LayerSharing 提高了性能,但由于壓縮后無法完全恢復(fù)性能,導(dǎo)致結(jié)果并不理想。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

相比之下,ScaleOT 使得大型模型的壓縮變得可行,僅需要在壓縮階段訓(xùn)練大約 1-2% 的參數(shù)。值得注意的是,該團(tuán)隊(duì)提出的方法在 WebQs 任務(wù)上實(shí)現(xiàn)了強(qiáng)大的插件性能,其中零樣本準(zhǔn)確率為零,突顯了其在新的下游應(yīng)用中的潛力。此外,ScaleOT 取得了值得稱贊的結(jié)果,表明其有效性并不局限于特定的模型大小。這使得 ScaleOT 成為增強(qiáng)不同規(guī)模模型跨域微調(diào)結(jié)果的有價(jià)值策略。

SRC 的效果

為了評(píng)估 SRC 在提高模型隱私方面的有效性,該團(tuán)隊(duì)在 WikiText 數(shù)據(jù)集上對(duì) GPT2XL 和 OPT-1.3B 進(jìn)行了實(shí)驗(yàn)。如圖 4 所示,他們線性地將壓縮比率 β 從 0 提高到 1,導(dǎo)致網(wǎng)絡(luò)中的秩降低。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

隨著 β 的提高,他們觀察到仿真器微調(diào)和插件性能都出現(xiàn)了持續(xù)下降,特別是在包含前饋網(wǎng)絡(luò)(FFN)的配置中,此處線性關(guān)系非常明顯。相比之下,在 0.6 到 1 的范圍內(nèi),對(duì)于 MHSA 配置,仿真器 FT 性能顯示出指數(shù)級(jí)下降,而插件性能則表現(xiàn)出線性降低。這表明 SRC 有潛力在不降低整體性能的情況下增強(qiáng)模型隱私。

重要性得分

該團(tuán)隊(duì)對(duì) OPT-6.7B 和 LLaMA-7B 的估計(jì)重要性得分進(jìn)行了可視化,如圖 6 所示。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

可以明顯看出,在不同網(wǎng)絡(luò)中,重要性分布存在相當(dāng)大的差異。然而,一個(gè)一致的模式出現(xiàn)了:第一層具有顯著的重要性。這一發(fā)現(xiàn)與 OT 的觀察結(jié)果相呼應(yīng),盡管缺乏明確的解釋。

與參數(shù)高效微調(diào)的正交性

根據(jù)設(shè)計(jì),ScaleOT 能與參數(shù)高效微調(diào)(PEFT)方法無縫集成,從而形成一種綜合方法,顯著減少可訓(xùn)練參數(shù)并提升效率。這可以通過在調(diào)整層中使用 PEFT 方法來實(shí)現(xiàn),包括 Adapter-tuning 和 LoRA 等策略。如表 3 所示,該團(tuán)隊(duì)觀察到 Adapter-tuning 和 LoRA 在保持插件性能的同時(shí)大幅減少了可訓(xùn)練參數(shù)。

微調(diào)時(shí)無需泄露數(shù)據(jù)或權(quán)重,這篇AAAI2025論文提出的ScaleOT竟能保護(hù)隱私

結(jié)語

螞蟻數(shù)科摩斯團(tuán)隊(duì)這一全新的大模型隱私微調(diào)算法,有效攻克了在仿真器生成時(shí)計(jì)算復(fù)雜度高、模型隱私安全性不足等難題,成功為大模型隱私保護(hù)提供了新穎的思路與解決方案。作者表示,該創(chuàng)新源自螞蟻數(shù)科在 AI 隱私安全領(lǐng)域的持續(xù)投入與實(shí)踐,這一算法融入摩斯大模型隱私保護(hù)產(chǎn)品,并已成為首批通過信通院大模型可信執(zhí)行環(huán)境產(chǎn)品專項(xiàng)測試的產(chǎn)品之一。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港