11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購(gòu)吧!
【新智元導(dǎo)讀】在面對(duì)復(fù)雜的推理任務(wù)時(shí),SFT往往讓大模型顯得力不從心。CMU等機(jī)構(gòu)的華人團(tuán)隊(duì)提出了「批判性微調(diào)」方法,僅在50K樣本上訓(xùn)練,就在大多數(shù)基準(zhǔn)測(cè)試中優(yōu)于使用超過200萬個(gè)樣本的強(qiáng)化學(xué)習(xí)方法。進(jìn)一步的研究也可能包括將CFT與其他訓(xùn)練范式,如SFT和RL相結(jié)合,擴(kuò)展到多模態(tài)環(huán)境,并研究其理論基礎(chǔ)。