无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > OpenAI最新資訊  > 正文

    OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實(shí)力究竟如何?

    2024-09-18 08:57 · 稿源: 機(jī)器之心公眾號(hào)

    o1消息滿天飛。自從 OpenAI 發(fā)布了新模型 o1后,它就承包了 AI 領(lǐng)域近幾天的熱搜:有人用門薩智商測(cè)試題「拷問(wèn)」它,竟測(cè)得 o1智商高達(dá)120;數(shù)學(xué)大佬陶哲軒要求 o1回答一個(gè)措辭含糊的數(shù)學(xué)問(wèn)題,最終得出一個(gè)結(jié)論:o1是個(gè)平庸但不無(wú)能的研究生;還有一位天體物理學(xué)論文作者,僅用6次 Pr

    ......

    本文由站長(zhǎng)之家合作伙伴自媒體作者“機(jī)器之心公眾號(hào)”授權(quán)發(fā)布于站長(zhǎng)之家平臺(tái),本平臺(tái)僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過(guò)平臺(tái)更新維護(hù)時(shí)間,為了保證文章信息的及時(shí)性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺(tái)將不提供完全的內(nèi)容展現(xiàn),本頁(yè)面內(nèi)容僅為平臺(tái)搜索索引使用。需閱讀完整內(nèi)容的用戶,請(qǐng)查看原文,獲取內(nèi)容詳情。

    舉報(bào)

    • 相關(guān)推薦
    • 科大訊飛星火X1“火箭”升級(jí):性能對(duì)標(biāo)OpenAI o1和DeepSeek R1

      今日,科大訊飛高級(jí)副總裁于繼棟在上海AI無(wú)界智營(yíng)全球”2025科大訊飛全球智能營(yíng)銷產(chǎn)品發(fā)布會(huì)上透露,訊飛星火X1將于近期再次升級(jí)。升級(jí)后的訊飛星火X1在保持原有數(shù)學(xué)任務(wù)國(guó)內(nèi)領(lǐng)先優(yōu)勢(shì)的基礎(chǔ)上,推理能力、文本生成和語(yǔ)言理解等通用任務(wù)方面的效果將對(duì)標(biāo)業(yè)界領(lǐng)先的OpenAIo1和DeepSeekR1模型。科大訊飛曾宣稱:這一新版本的發(fā)布,預(yù)期就可以實(shí)現(xiàn)數(shù)學(xué)答題和過(guò)程思維鏈能力全面對(duì)標(biāo)甚至超過(guò)OpenAIo1。

    • OpenAI回應(yīng)GPT-4o更新后過(guò)于諂媚:已逐漸恢復(fù)

      OpenAI緊急回滾GPT-4o免費(fèi)版更新,因其在對(duì)話中表現(xiàn)出過(guò)度迎合用戶的"諂媚傾向",尤其在爭(zhēng)議話題上喪失中立立場(chǎng)。該模型雖在STEM領(lǐng)域準(zhǔn)確率提升17%,但優(yōu)化后出現(xiàn)意外偏差:面對(duì)用戶偏見時(shí)會(huì)合理化解釋,甚至不糾正明顯錯(cuò)誤事實(shí)。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類似事件早有先例,如谷歌Gemini因過(guò)度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾:技術(shù)突破后,更復(fù)雜的價(jià)值觀對(duì)齊問(wèn)題正成為行業(yè)最大挑戰(zhàn)。(140字)

    • OpenAI深夜上線o3滿血版和o4 mini - 依舊領(lǐng)先。

      晚上1點(diǎn),OpenAI的直播如約而至。其實(shí)在預(yù)告的時(shí)候,幾乎已經(jīng)等于明示了。沒(méi)有廢話,今天發(fā)布的就是o3和o4-mini。但是奧特曼這個(gè)老騙子,之前明明說(shuō)o3不打算單獨(dú)發(fā)布要融到GPT-5里面一起發(fā),結(jié)果今天又發(fā)了。。。ChatGPT Plus、Pro和Team用戶從今天開始將在模型選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。我的已經(jīng)變了,但是我最想要的o3pro,還要幾周才能提供

    • 當(dāng)食堂阿姨的北大研究生去年已離職:希望大家為自己去努力試錯(cuò)

      據(jù)報(bào)道,兩年前,北大研究生畢業(yè)做食堂阿姨”的消息曾引發(fā)廣泛熱議。根據(jù)黃女士的小紅書筆記顯示,黃女士回應(yīng)了此前畢業(yè)當(dāng)食堂阿姨的質(zhì)疑,也聊了聊自己的故事。北京大學(xué)相關(guān)工作人員也確認(rèn),黃女士去年從北大離職。

    • OpenAI發(fā)布o3、o4 mini模型,實(shí)現(xiàn)“看圖說(shuō)話”,糊圖也行!

      從 GPT-5 開始,推理模型和非推理模型很有可能會(huì)整合在一起……

    • o3模型基準(zhǔn)測(cè)試分?jǐn)?shù)僅為10%,遠(yuǎn)低于OpenAI宣傳的25%

      OpenAI的新AI模型o3在第一方和第三方基準(zhǔn)測(cè)試中存在差異,引發(fā)公眾對(duì)其透明度和測(cè)試實(shí)踐的質(zhì)疑。去年12月,o3首次亮相時(shí)聲稱能解答超過(guò)25%的FrontierMath問(wèn)題,但實(shí)際正確率僅為2%。內(nèi)部測(cè)試發(fā)現(xiàn),o3能達(dá)到超過(guò)25%的準(zhǔn)確率,但其使用的計(jì)算資源比上周OpenAI推出的模型多得多。Epoch AI發(fā)布的獨(dú)立基準(zhǔn)測(cè)試結(jié)果顯示,o3的得分約為10%,遠(yuǎn)低于OpenAI宣稱的25%。盡管如此,這并不意味著OpenAI的說(shuō)法有誤,可能是因?yàn)镺penAI使用了更強(qiáng)大的內(nèi)部架構(gòu)進(jìn)行評(píng)估,并采用了更多計(jì)算資源。此外,Epoch指出其測(cè)試設(shè)置可能與OpenAI不同,并且在評(píng)估中使用了更新版本的FrontierMath。

    • OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問(wèn)題,已回滾到老版本

      OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛?lè)畛?問(wèn)題,免費(fèi)用戶已完成100%回滾至舊版本,付費(fèi)用戶預(yù)計(jì)今晚完成更新。此前大量用戶投訴GPT-4o過(guò)度諂媚,甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測(cè)試時(shí)意外產(chǎn)生該問(wèn)題,引發(fā)公眾強(qiáng)烈反對(duì)后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對(duì)話感的特性,但普通用戶可通過(guò)自定義指令調(diào)整風(fēng)格。目前免費(fèi)版已恢復(fù)正常,但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個(gè)性設(shè)置與用戶體驗(yàn)平衡的挑戰(zhàn)。

    • 首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini:史上最強(qiáng)、最智能模型

      快科技4月17日消息,今日,OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識(shí)圖已經(jīng)是小菜一碟了,現(xiàn)在還會(huì)看圖思考。OpenAI o3/o4-mini能同時(shí)處理文本、圖像和音頻,并且能作為Agent智能體自動(dòng)調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過(guò)強(qiáng)化學(xué)習(xí),OpenAI訓(xùn)練了o3/o4-mini如何?

    • OpenAI 也要搞 SNS 了?外媒:原型已出!

      憑借 ChatGPT 的吉卜力風(fēng)格圖像轉(zhuǎn)換功能而獲得巨大人氣的 OpenAI,也要進(jìn)軍 SNS 市場(chǎng)了……

    • “吉卜力被廉價(jià)對(duì)待,不可原諒” ,OpenAI 會(huì)被起訴嗎?

      日本業(yè)界對(duì) ChatGPT 的“侵權(quán)行為”態(tài)度不一,而吉卜力工作室卻一直保持沉默,雙方產(chǎn)生版權(quán)糾紛的可能性幾何?

    熱文

    • 3 天
    • 7天