11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買(mǎi)1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵?lái)騰訊云選購(gòu)吧!
OpenAI的新AI模型o3在第一方和第三方基準(zhǔn)測(cè)試中存在差異,引發(fā)公眾對(duì)其透明度和測(cè)試實(shí)踐的質(zhì)疑。去年12月,o3首次亮相時(shí)聲稱(chēng)能解答超過(guò)25%的FrontierMath問(wèn)題,但實(shí)際正確率僅為2%。內(nèi)部測(cè)試發(fā)現(xiàn),o3能達(dá)到超過(guò)25%的準(zhǔn)確率,但其使用的計(jì)算資源比上周OpenAI推出的模型多得多。Epoch AI發(fā)布的獨(dú)立基準(zhǔn)測(cè)試結(jié)果顯示,o3的得分約為10%,遠(yuǎn)低于OpenAI宣稱(chēng)的25%。盡管如此,這并不意味著OpenAI的說(shuō)法有誤,可能是因?yàn)镺penAI使用了更強(qiáng)大的內(nèi)部架構(gòu)進(jìn)行評(píng)估,并采用了更多計(jì)算資源。此外,Epoch指出其測(cè)試設(shè)置可能與OpenAI不同,并且在評(píng)估中使用了更新版本的FrontierMath。
根據(jù)OpenAI公布的數(shù)據(jù)顯示,新模型o3在Codeforces上的評(píng)級(jí)為2727,比全球99.8%程序員都要好。如果轉(zhuǎn)化為智商大約在157,歷史上的愛(ài)因斯坦還能與AI較量一下。同時(shí)很多困擾人類(lèi)幾十年甚至上百年的數(shù)學(xué)、物理難題都可能得到解決。