站長(zhǎng)之家(ChinaZ.com) 7月21日 消息:麻省理工學(xué)院的研究人員通過(guò)引入一種新的隱私度量標(biāo)準(zhǔn)和一個(gè)確定所需噪音最小量的框架,取得了保護(hù)機(jī)器學(xué)習(xí)模型中敏感數(shù)據(jù)的突破。
傳統(tǒng)的隱私保護(hù)方法往往通過(guò)添加大量噪音來(lái)防止對(duì)特定數(shù)據(jù)的識(shí)別,但這會(huì)降低模型的準(zhǔn)確性。而新的隱私度量標(biāo)準(zhǔn) “Probably Approximately Correct (PAC) Privacy” 則從不同的角度考慮,評(píng)估了對(duì)手在添加噪音后重構(gòu)敏感數(shù)據(jù)的難度。
為了實(shí)現(xiàn) PAC 隱私,研究人員開(kāi)發(fā)了一個(gè)算法,根據(jù)對(duì)手的觀點(diǎn)計(jì)算原始數(shù)據(jù)的不確定性或熵,并通過(guò)對(duì)多次運(yùn)行機(jī)器學(xué)習(xí)訓(xùn)練算法的子采樣數(shù)據(jù)進(jìn)行比較,確定所需噪音的最佳量。
該算法不需要了解模型的內(nèi)部工作機(jī)制或訓(xùn)練過(guò)程,并且可以根據(jù)用戶對(duì)對(duì)手重構(gòu)敏感數(shù)據(jù)能力的要求提供最佳噪音量。然而,該算法并不估計(jì)添加噪音對(duì)模型準(zhǔn)確性的損失,而且由于需要反復(fù)在多個(gè)子采樣數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn) PAC 隱私可能會(huì)導(dǎo)致計(jì)算成本較高。為了提高 PAC 隱私的效果,研究人員建議修改機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程以增加穩(wěn)定性,從而減少子采樣輸出之間的方差。這種方法可以降低算法的計(jì)算負(fù)擔(dān),并減少所需噪音的量。
此外,更穩(wěn)定的模型通常表現(xiàn)出更低的泛化誤差,從而可以在新數(shù)據(jù)上進(jìn)行更準(zhǔn)確的預(yù)測(cè)。通過(guò)利用 PAC 隱私,工程師可以開(kāi)發(fā)出在保護(hù)訓(xùn)練數(shù)據(jù)的同時(shí)保持準(zhǔn)確性的模型,從而在實(shí)際應(yīng)用中實(shí)現(xiàn)安全的數(shù)據(jù)共享。
(舉報(bào))