无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

剛剛，OpenAI開源SimpleQA！輕松檢測、校準(zhǔn)大模型能力

2024-10-31 08:51 · 稿源： ? AIGC開放社區(qū)公眾號

今天凌晨，OpenAI開源了最新基準(zhǔn)測試集SimpleQA，可以幫助開發(fā)者輕松檢測、校準(zhǔn)大模型的真實性能力。目前，很多大模型會出現(xiàn)一本正經(jīng)胡說八道的問題，例如，你提問NBA歷史上得分最多的是誰，它回答是邁克爾喬丹，實際上是勒布朗詹姆斯。包括OpenAI自己發(fā)布的GPT-4o、o1-preview、o

......

本文由站長之家合作伙伴自媒體作者“? AIGC開放社區(qū)公眾號”授權(quán)發(fā)布于站長之家平臺，本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時間超過平臺更新維護(hù)時間，為了保證文章信息的及時性，內(nèi)容觀點的準(zhǔn)確性，平臺將不提供完全的內(nèi)容展現(xiàn)，本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶，請查看原文，獲取內(nèi)容詳情。

即將跳轉(zhuǎn)到外部網(wǎng)站

安全性未知，是否繼續(xù)

繼續(xù)前往

（舉報）

相關(guān)推薦

關(guān)鍵詞：

剛剛，OpenAI開源BrowseComp，重塑Agent瀏覽器評測

今天凌晨2點，OpenAI開源了專門用于智能體瀏覽器功能的測試基準(zhǔn)——BrowseComp。這個測試基準(zhǔn)非常有難度，連OpenAI自己的GPT-4o、GPT-4.5準(zhǔn)確率只有0.6%和0.9%幾乎為0，即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過使用更多的計算資源，模型可以嘗試更多的搜索路徑，從提高找到正確答案的概率。

?OpenAI ?智能體 ?測試基準(zhǔn)
薦剛剛，OpenAI開源PaperBench，重塑頂級AI Agent評測

今天凌晨1點，OpenAI開源了一個全新的AIAgent評測基準(zhǔn)——PaperBench。這個基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力，需要對2024年國際機(jī)器學(xué)習(xí)大會上頂尖論文的復(fù)現(xiàn)，包括對論文內(nèi)容的理解、代碼編寫以及實驗執(zhí)行等方面的能力。目前智能體的能力還無法超越人類。

?AI ?Agent ?PaperBench
薦媲美OpenAI-o3，剛剛開源模型DeepCoder，訓(xùn)練方法、數(shù)據(jù)集大公開

今天凌晨4點，著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica，聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù)，但在知名代碼測試平臺LiveCodeBench的測試分為60.6%，高于OpenAI的o1模型，略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

?大模型 ?深度學(xué)習(xí) ?開源模型
薦剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦

OpenAI發(fā)布全新圖像生成模型GPT-image-1，通過API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù)，并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能，圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著，開發(fā)者可通過API實現(xiàn)更多創(chuàng)意場景。新模型在?

?OpenAI ?GPT-image-1 ?圖像生成
薦微信，OpenAI和Kimi想一起去了：大模型的盡頭依然還是社交平臺

AI圈最近彌漫著一股微妙的氣息。人們似乎不再熱議大語言模型的最新突破、以及AI應(yīng)用的無限可能時，一些代表著未來的AI巨頭，卻似乎正將目光投向互聯(lián)網(wǎng)那熟悉得不能再熟悉的角落——社交網(wǎng)絡(luò)與社區(qū)。近期的傳聞和動作頗具代表性，在大洋彼岸，手握ChatGPT和Sora等王牌的OpenAI，據(jù)稱正內(nèi)部測試類X的社交功能，其CEO Sam Altman甚至在私下征求反饋；而在國內(nèi)，憑借長文本能力

?AI社交網(wǎng)絡(luò) ?語言模型 ?OpenAI動態(tài)
薦國產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標(biāo)志著中國AI進(jìn)入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術(shù)特點與市場表現(xiàn)，指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下，國產(chǎn)全棧技術(shù)路徑的重要性，認(rèn)為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出，隨著推理模型成為競爭焦點，國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

?AI技術(shù) ?DeepSeek-R1 ?云服務(wù)器
薦不要思考過程，推理模型能力能夠更強

UC伯克利和艾倫實驗室的最新研究表明，推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案，跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明，在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下，NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式，能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異，尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn)，結(jié)合并行計算擴(kuò)展后，NoThinking能進(jìn)一步提升性能，在保持準(zhǔn)確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。

?推理模型 ?無思考方法 ?解決方案
為編程而生？OpenAI 發(fā)布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是為開發(fā)者量身定制的……

?openai ?gpt-4.1 ?gpt-4.1mini
剛剛，AI破解50年未解數(shù)學(xué)難題！南大校友用OpenAI模型完成首個非平凡數(shù)學(xué)證明

【新智元導(dǎo)讀】AI輔助人類，完成了首個非平凡研究數(shù)學(xué)證明，破解了50年未解的數(shù)學(xué)難題!在南大校友的研究中，這個難題中q=3的情況，由o3-mini-high給出了精確解。就在剛剛，AI完成了首個非平凡研究數(shù)學(xué)證明!完成這項研究的，是美國紐約布魯克海文國家實驗室凝聚態(tài)物理與材料科學(xué)分部的一位華人學(xué)者Weiguo Yin。論文地址:https://arxiv.org/abs/2503.23758在這項研究中，作者在一維J_1-J

?AI數(shù)學(xué)證明 ?數(shù)學(xué)難題 ?非平凡研究
奧特曼：ChatGPT不是AGI！OpenAI最強開源模型直擊DeepSeek

【新智元導(dǎo)讀】代碼截圖泄露，滿血版o3、o4-mini鎖定下周!更勁爆的是，一款據(jù)稱是OpenAI的神秘模型一夜爆紅，每日處理高達(dá)260億token，是Claude用量4倍。奧特曼在TED放話:將推超強開源模型，直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活，未來一代人將會覺得當(dāng)前人們又辛苦又落后。

?代碼泄露 ?OpenAI ?模型發(fā)布

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM