11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
【新智元導(dǎo)讀】今天,「天工大模型4.0」o1版/4o版在網(wǎng)頁端和APP端正式上線了,人人可玩的那種。2024中國(guó)互聯(lián)網(wǎng)價(jià)值榜發(fā)布。在這條通往AGI的道路上,他們正在用技術(shù)創(chuàng)新和產(chǎn)品落地,一步步將愿景變?yōu)楝F(xiàn)實(shí)。
近日,蘋果公司的AI研究團(tuán)隊(duì)發(fā)表了一篇題為UnderstandingtheLimitationsofLargeLanguageModelsinMathematicalReasoning”的論文,揭示了大型語言模型在數(shù)學(xué)推理方面的顯著局限性。盡管這些模型在生成人類水平的文本方面表現(xiàn)出色,但當(dāng)處理簡(jiǎn)單的數(shù)學(xué)問題時(shí),即使問題僅進(jìn)行了微小的改動(dòng),如添加無關(guān)信息,模型的表現(xiàn)也會(huì)急劇下降。雖然LLM在許多領(lǐng)域表現(xiàn)優(yōu)異,但其推理能力仍有待改進(jìn)。
【新智元導(dǎo)讀】在基準(zhǔn)測(cè)試上頻頻屠榜的大模型們,竟然被一道簡(jiǎn)單的邏輯推理題打得全軍覆沒?最近,研究機(jī)構(gòu)LAION的幾位作者共同發(fā)表了一篇文章,以「愛麗絲夢(mèng)游仙境」為啟發(fā)涉及了一系列簡(jiǎn)單的推理問題,揭示了LLM基準(zhǔn)測(cè)試的盲區(qū)。一道簡(jiǎn)單的邏輯問題,竟讓幾乎所有的LLM全軍覆沒?對(duì)于人類來說,這個(gè)名為「愛麗絲夢(mèng)游仙境」的測(cè)試并不算很難——「愛麗絲有N個(gè)兄弟,
新加坡國(guó)立大學(xué)聯(lián)合加州大學(xué)圣芭芭拉分校與奧克蘭大學(xué)的研究人員提出了一種名為SymbCoT的全新推理框架,旨在提升大語言模型的符號(hào)邏輯推理能力。這一框架結(jié)合了符號(hào)化邏輯表達(dá)式與思維鏈,極大提升了推理的質(zhì)量、魯棒性與可信度。不同LLM的影響:SymbCoT與更先進(jìn)的模型之間的協(xié)同效應(yīng)更為顯著。
谷歌DeepMind和斯坦福的研究人員發(fā)現(xiàn)大型語言模型在處理邏輯推理任務(wù)時(shí),前提信息的呈現(xiàn)順序?qū)ζ浔憩F(xiàn)具有決定性影響。在邏輯推理和數(shù)學(xué)問題中,前提按照邏輯自然順序排列時(shí),模型表現(xiàn)更佳。在邏輯推理中,前提順序?qū)Υ笮驼Z言模型推理表現(xiàn)有重大影響,如何應(yīng)對(duì)這一問題仍是一個(gè)挑戰(zhàn)。
“一個(gè)法律案件的事實(shí)是否清晰,與法條之間的關(guān)系如何判定,全部都在講求邏輯?!痹贛EET2024智能未來大會(huì)現(xiàn)場(chǎng),面壁智能聯(lián)合創(chuàng)始人、CEO李大海談到大模型在法律行業(yè)的落地時(shí)強(qiáng)調(diào)了邏輯推理能力的重要性。希望行業(yè)里的所有伙伴一起來把這些問題攻克和解決,讓整個(gè)社會(huì)和人們的生活變得更好。