无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > LLM最新資訊  > 正文

    新方法揭示了如何利用一個(gè)大語(yǔ)言模型來(lái)越獄另一個(gè)大語(yǔ)言模型

    2023-11-08 11:11 · 稿源:站長(zhǎng)之家

    劃重點(diǎn):

    ?? 一項(xiàng)由賓夕法尼亞大學(xué)的研究人員開發(fā)的新算法可以自動(dòng)消除大型語(yǔ)言模型(LLM)中的安全漏洞。

    ?? 這個(gè)名為Prompt Automatic Iterative Refinement(PAIR)的算法可以識(shí)別“越獄”提示,防止其生成有害內(nèi)容。

    ?? PAIR不僅能夠與ChatGPT等黑盒模型一起工作,還能夠以較少嘗試生成越獄提示,且這些提示具有可解釋性和可傳遞性。

    站長(zhǎng)之家(ChinaZ.com) 11月8日 消息:一項(xiàng)最新研究揭示了一種新的方法,允許一個(gè)大型語(yǔ)言模型(LLM)被用于越獄另一個(gè),以揭示潛在的安全漏洞。

    來(lái)自賓夕法尼亞大學(xué)的研究人員開發(fā)了一種名為Prompt Automatic Iterative Refinement(PAIR)的算法,該算法能夠自動(dòng)停止LLMs中的安全漏洞,防止其生成有害內(nèi)容。

    機(jī)器人黑客

    圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney

    PAIR算法的獨(dú)特之處在于它能夠與黑盒模型(如ChatGPT)一起工作,而且它在生成越獄提示時(shí)所需的嘗試次數(shù)較少,而且這些提示具有可解釋性,可以在多個(gè)模型之間傳遞。這使得企業(yè)能夠以經(jīng)濟(jì)高效的方式識(shí)別和修復(fù)其LLMs中的漏洞。

    在研究中,研究人員使用了一個(gè)名為Vicuna的開源LLM作為攻擊模型,并測(cè)試了多個(gè)目標(biāo)模型,包括開源模型和商業(yè)模型。

    研究結(jié)果顯示,PAIR成功越獄了GPT-3.5和GPT-4的60%的設(shè)置,甚至在一些情況下只需要幾十個(gè)查詢,平均運(yùn)行時(shí)間約為五分鐘。這明顯改進(jìn)了現(xiàn)有的越獄算法,后者通常需要數(shù)千個(gè)查詢和平均150分鐘的攻擊時(shí)間。

    此外,PAIR生成的攻擊具有人類可解釋性,可以輕松傳遞到其他LLMs。研究人員認(rèn)為這是由于PAIR的對(duì)抗性提示的語(yǔ)義性質(zhì),這些提示針對(duì)語(yǔ)言模型中的類似漏洞,因?yàn)樗鼈兺ǔJ窃谙嗨频南乱粋€(gè)單詞預(yù)測(cè)任務(wù)上訓(xùn)練的。

    PAIR算法的出現(xiàn)代表了一種使用LLMs作為優(yōu)化器的新趨勢(shì)。以前,用戶不得不手動(dòng)制作和調(diào)整提示以從LLMs中提取最佳結(jié)果。然而,通過(guò)將提示過(guò)程轉(zhuǎn)化為可度量和可評(píng)估的問(wèn)題,開發(fā)人員可以創(chuàng)建算法,其中模型的輸出被循環(huán)用于優(yōu)化,這將加速LLM領(lǐng)域的發(fā)展,可能引領(lǐng)領(lǐng)域中的新的和未預(yù)見的進(jìn)展。

    舉報(bào)

    • 相關(guān)推薦
    • 時(shí)空壺接入大語(yǔ)言模型,跨語(yǔ)言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語(yǔ)言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國(guó)談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語(yǔ)言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動(dòng)全球交流合作邁向新的高度,真正實(shí)現(xiàn)跨越語(yǔ)言障礙,讓世界溝通無(wú)阻。

    • 提升大模型自動(dòng)修Bug能力 豆包正式開源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)宣布,正式開源首個(gè)多語(yǔ)言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評(píng)估和提升大模型自動(dòng)修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語(yǔ)言,是真正面向全棧工程”的評(píng)測(cè)基準(zhǔn)。相比于以往聚焦Python的單語(yǔ)言任務(wù),Multi-SWE-bench更貼近現(xiàn)實(shí)中的多語(yǔ)言開發(fā)場(chǎng)景,也更能反映當(dāng)前模型在自動(dòng)化軟件工程”方向上的實(shí)際能力邊界。

    • 阿丘科技李嘉悅:大模型驅(qū)動(dòng)的AI檢測(cè)范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

      3月28日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國(guó)際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場(chǎng),圍繞“大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講?!苯衲?,在這個(gè)快速變化的時(shí)代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

    • 從跨語(yǔ)言溝通困境到破局:時(shí)空壺的卓越引領(lǐng)

      在全球化深入推進(jìn)的時(shí)代浪潮下,跨語(yǔ)言交流已然成為國(guó)際交往的重要橋梁。然而,近期美國(guó)網(wǎng)紅“甲亢哥” 的中國(guó)行,卻因隨行翻譯的一系列不當(dāng)操作,將跨語(yǔ)言溝通不暢的問(wèn)題暴露得淋漓盡致。從曲解理發(fā)師關(guān)于臟辮結(jié)構(gòu)的專業(yè)解釋,到使用帶有歧視性的詞匯介紹中國(guó)女性,這些失誤不僅嚴(yán)重阻礙了雙方的正常交流,更在網(wǎng)絡(luò)上引發(fā)了廣泛的爭(zhēng)議,讓精準(zhǔn)、專業(yè)的翻譯在?

    • 段永平被噴退出雪球:等語(yǔ)言環(huán)境好了 我再回來(lái)

      快科技4月10日消息,著名投資人段永平今天宣布暫時(shí)離開雪球。他寫道:由于某種原因,我會(huì)有相當(dāng)長(zhǎng)的一段時(shí)間不再上雪球了,也許有一天我還會(huì)回來(lái)?!彪S后他解釋道:我活得好好的!不是因?yàn)樯眢w的原因,也不是方丈的原因,大家別亂猜想哈。我就是很長(zhǎng)時(shí)間不想再發(fā)言了的意思。等語(yǔ)言環(huán)境好了之后我會(huì)再回來(lái)的?!庇纱藖?lái)看,段永平忍受不了雪球當(dāng)前的語(yǔ)言環(huán)境,?

    • 雙向免疫調(diào)節(jié)助力兒童健康未來(lái),京生·脾氨肽口服溶液為兒童過(guò)敏性鼻炎與腺樣體肥大診療提供新方法

      復(fù)旦大學(xué)附屬兒科醫(yī)院許政敏教授團(tuán)隊(duì)發(fā)布《兒童腺樣體肥大臨床診療管理專家共識(shí)》,指出我國(guó)34.4%兒童患有腺樣體肥大。該病常與過(guò)敏性鼻炎并發(fā),傳統(tǒng)治療存在創(chuàng)傷風(fēng)險(xiǎn)。共識(shí)推薦采用雙向免疫調(diào)節(jié)劑"京生·脾氨肽口服溶液"新療法,通過(guò)調(diào)節(jié)免疫平衡,8周內(nèi)可顯著縮小腺樣體并改善鼻塞等癥狀,且安全性良好。該方案為兒童過(guò)敏性鼻炎合并腺樣體肥大提供了更安全有效的治療選擇。

    • 鴻蒙版微信4月更新3個(gè)大版本:新增拉黑好友功能

      快科技4月30日消息,鴻蒙版微信再獲重磅版本更新,版本號(hào)為1.0.6.37,新版微信加入了拉黑好友等功能,詳細(xì)功能如下:1、支持設(shè)置聊天背景;2、支持將群聊保存到通訊錄;3、支持將朋友設(shè)為星標(biāo)或加入黑名單;4、消息發(fā)送失敗后支持重發(fā);5、支持關(guān)懷模式;6、支持面對(duì)面建群;7、一些已知問(wèn)題的修復(fù)。資料顯示,微信鴻蒙版應(yīng)用程序在今年1月上線華為鴻蒙應(yīng)用市場(chǎng),目前已實(shí)現(xiàn)基礎(chǔ)通信、社交互動(dòng)、微信支付、公眾號(hào)瀏覽、小程序使用、視頻號(hào)觀看以及直播等多項(xiàng)核心功能。在今年4月份,鴻蒙版微信共更新了3個(gè)大版本,以其為代表的各類鴻蒙生?

    • 合合信息發(fā)布“大模型加速器 2.0”,助力大模型跨越“幻覺”障礙

      近日,上海合合信息科技股份有限公司(簡(jiǎn)稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,憑借其多維度升級(jí),為降低大模型“幻覺”風(fēng)險(xiǎn)、推動(dòng)大模型精準(zhǔn)應(yīng)用提供了強(qiáng)大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認(rèn)知能力”的關(guān)鍵,合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù),從數(shù)據(jù)源頭入手,對(duì)復(fù)雜文檔的版式、布局和元素進(jìn)行精準(zhǔn)解析及結(jié)構(gòu)化處理,

    • 不要思考過(guò)程,推理模型能力能夠更強(qiáng)

      UC伯克利和艾倫實(shí)驗(yàn)室的最新研究表明,推理模型無(wú)需依賴冗長(zhǎng)的思考過(guò)程也能有效工作。研究人員提出的"無(wú)思考(NoThinking)"方法通過(guò)簡(jiǎn)單提示直接生成解決方案,跳過(guò)了傳統(tǒng)推理模型中的顯性思考步驟。實(shí)驗(yàn)證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問(wèn)題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異,尤其在資源受限時(shí)優(yōu)勢(shì)更明顯。研究還發(fā)現(xiàn),結(jié)合并行計(jì)算擴(kuò)展后,NoThinking能進(jìn)一步提升性能,在保持準(zhǔn)確性的同時(shí)顯著降低延遲和計(jì)算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過(guò)程"的傳統(tǒng)認(rèn)知。

    • 國(guó)產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標(biāo)志著中國(guó)AI進(jìn)入推理模型新時(shí)代。文章梳理了國(guó)產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國(guó)內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點(diǎn)分析了六大國(guó)產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點(diǎn)與市場(chǎng)表現(xiàn),指出國(guó)產(chǎn)模型在性能上已接近GPT-4水平。特別強(qiáng)調(diào)科大訊飛星火X1憑借全國(guó)產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬(wàn)美元超低成本實(shí)現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下,國(guó)產(chǎn)全棧技術(shù)路徑的重要性,認(rèn)為自主可控將成為對(duì)抗國(guó)際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競(jìng)爭(zhēng)焦點(diǎn),國(guó)產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。