11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
OpenAI開源了最新基準(zhǔn)測試集SimpleQA,可以幫助開發(fā)者輕松檢測、校準(zhǔn)大模型的真實(shí)性能力。很多大模型會出現(xiàn)一本正經(jīng)胡說八道的問題,例如,你提問NBA歷史上得分最多的是誰,它回答是邁克爾喬丹,實(shí)際上是勒布朗詹姆斯。通過測量模型的校準(zhǔn)情況,發(fā)現(xiàn)模型雖然有一定的信心概念,但普遍存在高估自己信心的問題,模型的信心水平與實(shí)際回答的準(zhǔn)確性之間存在差距。