站長之家(ChinaZ.com) 12 月 8 日消息:Meta 今天宣布了一項名為「Purple Llama」的新倡議,旨在促進人工智能(AI)系統(tǒng)的負責任開發(fā)。
Meta 表示,該項目將逐步提供 AI 開發(fā)社區(qū)構建開放生成 AI 模型所需的所有工具和評估,以確保安全和負責任的方式進行。
在一篇博客文章中,Meta 的 AI 研究團隊解釋說,生成式 AI 正在推動一波創(chuàng)新浪潮,包括對話式聊天機器人、圖像生成器、文檔摘要工具等現(xiàn)在在全球范圍內(nèi)被廣泛使用。許多這些新的生成式 AI 應用由 Meta 的開源 Llama 大型語言模型驅(qū)動。
因此,Meta 感到有責任采取行動,并鼓勵在 AI 安全領域的合作,稱這對于建立對這些新創(chuàng)新的信任至關重要?!笜嫿?AI 系統(tǒng)的人無法在真空中解決 AI 的挑戰(zhàn),這就是為什么我們希望平衡競爭環(huán)境,為開放的信任和安全創(chuàng)造一個中心,」該公司解釋道。
為了開始這一切,Meta 首先推出了一個名為 CyberSec Eval 的免費開放的大型語言模型(LLM)網(wǎng)絡安全評估基準。Meta 還宣布推出 Llama Guard,這是一個用于輸入/輸出過濾的安全分類器,已經(jīng)過優(yōu)化,便于部署。
Meta 在博客文章中表示,網(wǎng)絡安全和 LLM 提示安全是生成式 AI 安全中兩個最重要的領域,這在其 Llama 2 負責任使用指南中得到了強調(diào)。
據(jù)介紹,CyberSec Eval 是業(yè)界首個針對 LLM 的網(wǎng)絡安全安全評估集。這些基準基于行業(yè)標準和指南,并與安全主題專家合作開發(fā)。它們?yōu)殚_發(fā)者提供量化 LLM 安全風險的指標,并旨在解決不安全代碼建議頻率等問題。它們還使開發(fā)者能夠評估 LLM,使應用程序更難生成可能用于協(xié)助網(wǎng)絡攻擊的惡意代碼。
Meta 表示,新工具將有助于防止黑客和其他惡意行為者利用 LLM 進行網(wǎng)絡攻擊。其早期研究發(fā)現(xiàn),生成式 AI 被用來生成不安全代碼和滿足惡意請求存在「重大風險」。
至于 Llama Guard,它是一個預先訓練的模型,旨在防止生成式 AI 模型生成潛在風險的輸出。它是基于公開可用的數(shù)據(jù)集混合訓練的,使其能夠檢測許多不同用例中可能相關的常見風險或違規(guī)內(nèi)容。因此,它可以檢測來自生成式 AI 模型的風險提示和輸出,并防止它們被處理。最終,Meta 表示,這將幫助開發(fā)者定制他們的生成式 AI 模型,以支持相關用例,同時將引起爭議、不安或冒犯的風險降到最低。
紫色團隊行動
Meta 表示,「Purple Llama」是其新 AI 安全倡議的合適名稱,因為緩解生成式 AI 的風險需要開發(fā)者結(jié)合攻擊(即「紅色團隊行動」)和防御(即所謂的「藍色團隊行動」)。在傳統(tǒng)網(wǎng)絡安全中,紅色團隊由專家組成,他們執(zhí)行各種攻擊,試圖克服公司的網(wǎng)絡安全防御,而藍色團隊則專注于保護和應對這些攻擊。
因此,Meta 將其對生成式 AI 安全的方法標記為「紫色團隊行動」,旨在促進評估和緩解技術潛在風險的協(xié)作方法。
作為 Purple Llama 倡議的一部分,Meta 打算進行大量的探索性研究,但不會單獨進行。相反,它正在創(chuàng)建一個開放的生態(tài)系統(tǒng),合作伙伴包括新成立的 AI 聯(lián)盟、AMD、亞馬遜AWS、貝恩公司、CloudFlare Inc.、Databricks Inc.、Dell Technologies Inc.、Dropbox Inc.、谷歌云、Hugging Face Inc.、IBM 公司、英特爾公司、微軟公司、MLCmmons、英偉達公司、甲骨文公司、Scale AI Inc.、Together Computing Inc. 等眾多公司。
Meta 今天宣布這一倡議的時機緊隨其加入 IBM 公司 AI 聯(lián)盟之后,似乎是為了實現(xiàn)后者組織的目標而邁出的第一步,Constellation Research Inc. 副總裁兼首席分析師 Andy Thurai 表示。「在委員會工作成果發(fā)布之前,甚至在團隊確定之前,Meta 已經(jīng)提前發(fā)布了一套工具和框架,」分析師指出。
Thurai 補充說,值得一提的是,Meta 正在與一些尚未加入 AI 聯(lián)盟的公司合作,包括 AWS、谷歌、微軟和英偉達,這些是行業(yè)最大的參與者之一。
「Meta 計劃將它們用于商業(yè)和研究領域的許可,這是 LLaMa 模型許可選項限制最大的不滿,」Thurai 補充說?!杆岢龅墓ぞ呒荚趲椭?LLM 生產(chǎn)者評估 LLM 安全風險、不安全代碼輸出評估,和/或可能限制輸出,防止惡意行為者利用這些開源 LLM 進行網(wǎng)絡攻擊。這是一個良好的第一步,我希望看到更多。」
Purple Llama 項目的組成部分,包括 CyberSec Eval 和 Llama Guard,將基于寬松的許可進行許可,允許研究和商業(yè)使用。Meta 表示,它將在 12 月 10 日開始的 NeurIPs 2023 活動上展示這些組件的第一批,并為希望實施它們的開發(fā)者提供技術深入解析。
(舉報)