劃重點(diǎn):
NVIDIA發(fā)布了一項(xiàng)名為SteerLM的新技術(shù),旨在解決大型語(yǔ)言模型的問(wèn)題,使用戶(hù)能夠自定義模型的響應(yīng)。
SteerLM通過(guò)四個(gè)步驟的監(jiān)督微調(diào)過(guò)程,允許用戶(hù)定義關(guān)鍵屬性,如幫助性、幽默和創(chuàng)造力,來(lái)引導(dǎo)模型的行為。
這項(xiàng)技術(shù)的一個(gè)亮點(diǎn)是其實(shí)時(shí)可調(diào)性,用戶(hù)可以在推斷過(guò)程中微調(diào)屬性,從而為各種應(yīng)用提供個(gè)性化的能力。 NVIDIA將SteerLM作為開(kāi)源軟件發(fā)布,為開(kāi)發(fā)者提供了機(jī)會(huì)。性能上表現(xiàn)出色,還具有實(shí)時(shí)可調(diào)整性,可應(yīng)用于多個(gè)領(lǐng)域,從游戲到教育再到無(wú)障礙領(lǐng)域。
站長(zhǎng)之家(ChinaZ.com) 10月16日 消息:在人工智能領(lǐng)域,開(kāi)發(fā)人員和用戶(hù)一直面臨一個(gè)挑戰(zhàn),那就是需要更加定制和細(xì)致的大型語(yǔ)言模型響應(yīng)。雖然這些模型,比如Llama2,可以生成類(lèi)似人類(lèi)的文本,但它們通常需要提供真正針對(duì)個(gè)體用戶(hù)獨(dú)特需求的答案。然而,現(xiàn)有的方法,如監(jiān)督微調(diào)(SFT)和從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)(RLHF),存在一些局限,導(dǎo)致生成的響應(yīng)可能顯得機(jī)械和復(fù)雜。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
NVIDIA研究部門(mén)推出了SteerLM,這是一項(xiàng)突破性技術(shù),旨在解決這些挑戰(zhàn)。SteerLM提供了一種新穎的以用戶(hù)為中心的方法,用于定制大型語(yǔ)言模型的響應(yīng),允許用戶(hù)定義引導(dǎo)模型行為的關(guān)鍵屬性。SteerLM通過(guò)一個(gè)四步驟的監(jiān)督微調(diào)過(guò)程來(lái)運(yùn)作,簡(jiǎn)化了大型語(yǔ)言模型的定制過(guò)程。
首先,它使用人工標(biāo)注的數(shù)據(jù)集訓(xùn)練屬性預(yù)測(cè)模型,以評(píng)估諸如幫助性、幽默和創(chuàng)造性等特性。接下來(lái),它利用這個(gè)模型來(lái)標(biāo)注各種不同的數(shù)據(jù)集,豐富了語(yǔ)言模型可訪問(wèn)的數(shù)據(jù)的多樣性。然后,SteerLM采用屬性條件的監(jiān)督微調(diào),訓(xùn)練模型生成基于指定屬性的響應(yīng),如感知質(zhì)量。最后,它通過(guò)引導(dǎo)訓(xùn)練來(lái)精煉模型,生成各種不同的響應(yīng),以實(shí)現(xiàn)最佳的微調(diào)。
SteerLM的一個(gè)顯著特點(diǎn)是其實(shí)時(shí)可調(diào)整性,允許用戶(hù)在推斷過(guò)程中微調(diào)屬性,以滿(mǎn)足他們的具體需求。這種靈活性為各種潛在應(yīng)用敞開(kāi)了大門(mén),從游戲和教育到無(wú)障礙領(lǐng)域。有了SteerLM,公司可以為多個(gè)團(tuán)隊(duì)提供個(gè)性化能力,而無(wú)需為每個(gè)不同的應(yīng)用重新構(gòu)建模型。
SteerLM的簡(jiǎn)單和用戶(hù)友好性在其指標(biāo)和性能中表現(xiàn)出色。在實(shí)驗(yàn)中,SteerLM43B在Vicuna基準(zhǔn)上表現(xiàn)優(yōu)于現(xiàn)有的RLHF模型,如ChatGPT-3.5和Llama30B RLHF。通過(guò)提供一個(gè)簡(jiǎn)單的微調(diào)過(guò)程,幾乎不需要對(duì)基礎(chǔ)架構(gòu)和代碼進(jìn)行大幅度更改,SteerLM可以以更少的麻煩交付出色的結(jié)果,使其成為AI定制領(lǐng)域的一項(xiàng)重大進(jìn)展。
NVIDIA正在通過(guò)在其N(xiāo)VIDIA NeMo框架中發(fā)布SteerLM的開(kāi)源軟件來(lái)推動(dòng)先進(jìn)的定制。開(kāi)發(fā)人員現(xiàn)在有機(jī)會(huì)訪問(wèn)代碼,并使用Hugging Face等平臺(tái)上提供的自定義的13B Llama2模型來(lái)嘗試這一技術(shù)。
官方博客說(shuō)明:https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/?ref=maginative.com
(舉報(bào))