无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > OpenAI最新資訊  > 正文

    剛剛,OpenAI開源SimpleQA!輕松檢測、校準(zhǔn)大模型能力

    2024-10-31 08:51 · 稿源: ? AIGC開放社區(qū)公眾號

    今天凌晨,OpenAI開源了最新基準(zhǔn)測試集SimpleQA,可以幫助開發(fā)者輕松檢測、校準(zhǔn)大模型的真實性能力。目前,很多大模型會出現(xiàn)一本正經(jīng)胡說八道的問題,例如,你提問NBA歷史上得分最多的是誰,它回答是邁克爾喬丹,實際上是勒布朗詹姆斯。包括OpenAI自己發(fā)布的GPT-4o、o1-preview、o

    ......

    本文由站長之家合作伙伴自媒體作者“? AIGC開放社區(qū)公眾號”授權(quán)發(fā)布于站長之家平臺,本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時間超過平臺更新維護(hù)時間,為了保證文章信息的及時性,內(nèi)容觀點的準(zhǔn)確性,平臺將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請查看原文,獲取內(nèi)容詳情。

    舉報

    • 相關(guān)推薦
    • 剛剛,OpenAI開源BrowseComp,重塑Agent瀏覽器評測

      今天凌晨2點,OpenAI開源了專門用于智能體瀏覽器功能的測試基準(zhǔn)——BrowseComp。這個測試基準(zhǔn)非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準(zhǔn)確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過使用更多的計算資源,模型可以嘗試更多的搜索路徑,從提高找到正確答案的概率。

    • 剛剛OpenAI開源PaperBench,重塑頂級AI Agent評測

      今天凌晨1點,OpenAI開源了一個全新的AIAgent評測基準(zhǔn)——PaperBench。這個基準(zhǔn)主要考核智能體的搜索、整合、執(zhí)行等能力,需要對2024年國際機(jī)器學(xué)習(xí)大會上頂尖論文的復(fù)現(xiàn),包括對論文內(nèi)容的理解、代碼編寫以及實驗執(zhí)行等方面的能力。目前智能體的能力還無法超越人類。

    • 媲美OpenAI-o3,剛剛開源模型DeepCoder,訓(xùn)練方法、數(shù)據(jù)集大公開

      今天凌晨4點,著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

    • 剛剛,OpenAI發(fā)布GPT-image-1模型,更強吉卜力版本來啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過API實現(xiàn)更多創(chuàng)意場景。新模型在?

    • 微信,OpenAI和Kimi想一起去了:大模型的盡頭依然還是社交平臺

      AI圈最近彌漫著一股微妙的氣息。人們似乎不再熱議大語言模型的最新突破、以及AI應(yīng)用的無限可能時,一些代表著未來的AI巨頭,卻似乎正將目光投向互聯(lián)網(wǎng)那熟悉得不能再熟悉的角落——社交網(wǎng)絡(luò)與社區(qū)。近期的傳聞和動作頗具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,據(jù)稱正內(nèi)部測試類X的社交功能,其CEO Sam Altman甚至在私下征求反饋;而在國內(nèi),憑借長文本能力

    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標(biāo)志著中國AI進(jìn)入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點與市場表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下,國產(chǎn)全棧技術(shù)路徑的重要性,認(rèn)為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競爭焦點,國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • 不要思考過程,推理模型能力能夠更強

      UC伯克利和艾倫實驗室的最新研究表明,推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異,尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn),結(jié)合并行計算擴(kuò)展后,NoThinking能進(jìn)一步提升性能,在保持準(zhǔn)確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。

    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……

    • 剛剛,AI破解50年未解數(shù)學(xué)難題!南大校友用OpenAI模型完成首個非平凡數(shù)學(xué)證明

      【新智元導(dǎo)讀】AI輔助人類,完成了首個非平凡研究數(shù)學(xué)證明,破解了50年未解的數(shù)學(xué)難題!在南大校友的研究中,這個難題中q=3的情況,由o3-mini-high給出了精確解。就在剛剛,AI完成了首個非平凡研究數(shù)學(xué)證明!完成這項研究的,是美國紐約布魯克海文國家實驗室凝聚態(tài)物理與材料科學(xué)分部的一位華人學(xué)者Weiguo Yin。論文地址:https://arxiv.org/abs/2503.23758在這項研究中,作者在一維J_1-J

    • 奧特曼:ChatGPT不是AGI!OpenAI最強開源模型直擊DeepSeek

      【新智元導(dǎo)讀】代碼截圖泄露,滿血版o3、o4-mini鎖定下周!更勁爆的是,一款據(jù)稱是OpenAI的神秘模型一夜爆紅,每日處理高達(dá)260億token,是Claude用量4倍。奧特曼在TED放話:將推超強開源模型,直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活,未來一代人將會覺得當(dāng)前人們又辛苦又落后。