劃重點(diǎn):
?? 一項(xiàng)由賓夕法尼亞大學(xué)的研究人員開發(fā)的新算法可以自動(dòng)消除大型語(yǔ)言模型(LLM)中的安全漏洞。
?? 這個(gè)名為Prompt Automatic Iterative Refinement(PAIR)的算法可以識(shí)別“越獄”提示,防止其生成有害內(nèi)容。
?? PAIR不僅能夠與ChatGPT等黑盒模型一起工作,還能夠以較少嘗試生成越獄提示,且這些提示具有可解釋性和可傳遞性。
站長(zhǎng)之家(ChinaZ.com) 11月8日 消息:一項(xiàng)最新研究揭示了一種新的方法,允許一個(gè)大型語(yǔ)言模型(LLM)被用于越獄另一個(gè),以揭示潛在的安全漏洞。
來(lái)自賓夕法尼亞大學(xué)的研究人員開發(fā)了一種名為Prompt Automatic Iterative Refinement(PAIR)的算法,該算法能夠自動(dòng)停止LLMs中的安全漏洞,防止其生成有害內(nèi)容。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
PAIR算法的獨(dú)特之處在于它能夠與黑盒模型(如ChatGPT)一起工作,而且它在生成越獄提示時(shí)所需的嘗試次數(shù)較少,而且這些提示具有可解釋性,可以在多個(gè)模型之間傳遞。這使得企業(yè)能夠以經(jīng)濟(jì)高效的方式識(shí)別和修復(fù)其LLMs中的漏洞。
在研究中,研究人員使用了一個(gè)名為Vicuna的開源LLM作為攻擊模型,并測(cè)試了多個(gè)目標(biāo)模型,包括開源模型和商業(yè)模型。
研究結(jié)果顯示,PAIR成功越獄了GPT-3.5和GPT-4的60%的設(shè)置,甚至在一些情況下只需要幾十個(gè)查詢,平均運(yùn)行時(shí)間約為五分鐘。這明顯改進(jìn)了現(xiàn)有的越獄算法,后者通常需要數(shù)千個(gè)查詢和平均150分鐘的攻擊時(shí)間。
此外,PAIR生成的攻擊具有人類可解釋性,可以輕松傳遞到其他LLMs。研究人員認(rèn)為這是由于PAIR的對(duì)抗性提示的語(yǔ)義性質(zhì),這些提示針對(duì)語(yǔ)言模型中的類似漏洞,因?yàn)樗鼈兺ǔJ窃谙嗨频南乱粋€(gè)單詞預(yù)測(cè)任務(wù)上訓(xùn)練的。
PAIR算法的出現(xiàn)代表了一種使用LLMs作為優(yōu)化器的新趨勢(shì)。以前,用戶不得不手動(dòng)制作和調(diào)整提示以從LLMs中提取最佳結(jié)果。然而,通過(guò)將提示過(guò)程轉(zhuǎn)化為可度量和可評(píng)估的問(wèn)題,開發(fā)人員可以創(chuàng)建算法,其中模型的輸出被循環(huán)用于優(yōu)化,這將加速LLM領(lǐng)域的發(fā)展,可能引領(lǐng)領(lǐng)域中的新的和未預(yù)見的進(jìn)展。
(舉報(bào))