无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關鍵詞  > GPT-4.1最新資訊  > 正文

    剛剛,OpenAI發(fā)布GPT-4.1,性能暴漲、100萬上下文

    2025-04-15 08:45 · 稿源: ? AIGC開放社區(qū)公眾號

    聲明:本文來自于微信公眾號 AIGC開放社區(qū),作者:AIGC開放社區(qū),授權(quán)站長之家轉(zhuǎn)載發(fā)布。

    今天凌晨1點,OpenAI進行了技術直播發(fā)布了最新模型——GPT-4.1。

    除了GPT-4.1之外,還有GPT4.1-Mini和GPT4.1-Nano兩款模型,在多模態(tài)處理、代碼能力、指令遵循、成本方面實現(xiàn)大幅度提升。特別是支持100萬token上下文,這對于金融分析、小說寫作、教育等領域幫助巨大。

    由于GPT-4.1的發(fā)布,OpenAI宣布將會淘汰剛發(fā)布不久的GPT-4.5,其能力可見一斑。

    目前,如果想體驗GPT-4.1而無法通過API身份驗證的小伙伴,微軟已經(jīng)在Azure OpenAI上線了該模型,可以使用了。

    圖片

    GPT-4.1簡單介紹

    GPT-4.1最大亮點之一就是支持100萬tokens上下文,這也是OpenAI首次發(fā)布長窗口模型。

    與前代模型相比,GPT-4.1、GPT-4.1Mini和GPT-4.1Nano能夠處理多達100萬tokens的上下文,是GPT-4o的8倍。

    OpenAI在Long Context Evals上對長文本進行了測試,測試結(jié)果顯示,GPT-4.1系列的三個模型均能夠在語料庫的任何深度找到目標文本,無論是開頭、中間還是結(jié)尾,甚至在長達100萬tokens的上下文中,模型依然能夠準確地定位目標文本。

    圖片

    OpenAI還在Multi-Round Coreference進行了測試,通過創(chuàng)建合成對話來測試模型在長上下文中的理解和推理能力。在這些對話中,用戶和助手交替進行對話,用戶可能會要求模型生成一首關于某個主題的詩,接著要求生成另一首關于不同主題的詩,然后可能要求生成一個關于第三個主題的短故事。模型需要在這些復雜的對話中找到特定的內(nèi)容,例如“第二篇關于某個主題的短故事”。

    測試結(jié)果顯示,GPT-4.1在處理長達128K tokens的數(shù)據(jù)時顯著優(yōu)于GPT-4o,并且在長達100萬tokens的上下文中依然能夠保持較高的性能。

    圖片

    在編碼能力測試中,SWEBench評估將模型置于Python代碼庫環(huán)境,讓其探索代碼庫、編寫代碼和測試用例。結(jié)果顯示,GPT-4.1的準確率達到55%,而GPT-4o僅為33%。

    圖片

    在多語言編碼能力測試方面,Ader polyglot基準測試涵蓋多種編程語言和不同格式要求。GPT-4.1在差異性能上較GPT-4o提升一倍,在處理多語言編程任務、代碼優(yōu)化和版本管理時更高效。

    在指令遵循能力測試中,OpenAI構(gòu)建內(nèi)部評估體系,模擬API開發(fā)者使用場景,測試模型對復雜指令的遵循能力。每個樣本包含分屬不同類別的復雜指令,并分難度等級。在困難子集評估中,GPT-4.1遠超GPT-4o。

    圖片

    在多模態(tài)處理測試的視頻MME基準測試中,GPT4.1對30-60分鐘無字幕視頻進行理解并回答多項選擇題,取得72%的成績,達到當前最佳水平,在視頻內(nèi)容理解上實現(xiàn)重大突破。

    圖片

    價格方面,GPT -4.1系列在性能提升的同時,價格更具競爭力。GPT -4.1相比GPT-4o價格降低26%,而GPT -4.1Nano作為最小、最快且最便宜的模型,每百萬token的成本僅為12美分。

    實際應用GPT-4.1案例

    湯森路透是全球領先的金融和法律信息提供商,其專業(yè)級AI助手CoCounsel被廣泛應用于法律工作。

    CoCounsel的主要任務是幫助法律專業(yè)人士處理復雜的法律文件和工作流程。在測試GPT-4.1時,路透社發(fā)現(xiàn)該模型在多文檔審查方面表現(xiàn)出色,尤其是在處理涉及多個長文檔的復雜法律工作流程時。

    與GPT-4o相比,GPT-4.1在內(nèi)部長上下文基準測試中的多文檔審查準確性提高了17%。這一提升對于法律專業(yè)人士來說至關重要,因為它直接關系到CoCounsel處理復雜法律工作流程的能力。

    圖片

    法律文件通常包含多個長文檔,這些文檔之間可能存在復雜的相互關系,例如沖突條款或補充上下文。GPT-4.1在這些方面表現(xiàn)出了極高的可靠性,能夠準確識別文檔之間的細微關系,這對于法律分析和決策至關重要。

    而在處理多個法律文件時,GPT-4.1能夠有效地維護跨文檔的上下文信息,并準確識別出文檔之間的沖突條款或補充信息。這

    Carlyle是一家全球領先的私募股權(quán)投資公司,其業(yè)務涉及大量的金融數(shù)據(jù)分析和文檔處理。Carlyle使用GPT-4.1來從多個長文檔中準確提取顆?;慕鹑跀?shù)據(jù),這些文檔包括PDF文件、Excel表格和其他復雜格式。

    Carlyle的內(nèi)部評估顯示,GPT-4.1在從大型文檔中檢索數(shù)據(jù)方面的表現(xiàn)比其他可用模型高出50%。

    GPT-4.1在處理非常大的文檔時表現(xiàn)出色,尤其是在密集數(shù)據(jù)的檢索方面。該模型成功克服了其他模型的關鍵限制,包括檢索問題、中間位置丟失信息的錯誤以及跨文檔的多跳推理。

    這些能力使得GPT-4.1能夠更高效地從復雜的金融文檔中提取關鍵信息,為Carlyle的分析師提供了更準確、更全面的數(shù)據(jù)支持。

    圖片

    Windsurf是一家專注于提供高效開發(fā)工具的公司,其內(nèi)部編碼基準測試為評估AI模型在實際開發(fā)中的表現(xiàn)提供了一個重要的參考。在對GPT-4.1進行測試時,Windsurf發(fā)現(xiàn)該模型在編碼任務中的表現(xiàn)比前代GPT-4o有了顯著提升:GPT-4.1在Windsurf的內(nèi)部編碼基準測試中得分比GPT-4o高出60%。

    Windsurf的用戶反饋顯示,GPT-4.1在工具調(diào)用方面比GPT-4o更高效,效率提升了30%。GPT-4.1在編碼過程中重復進行不必要的編輯或過度細化的步驟的可能性比GPT-4o降低了約50%。

    舉報

    • 相關推薦
    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……

    • GPT-4.1偷偷開跑?神秘模型上線三天已被玩瘋,網(wǎng)友發(fā)現(xiàn)大量OpenAI痕跡

      上線僅三天的神秘模型,已經(jīng)鯊瘋了!大模型聚合平臺OpenRouter新推出的OptimusAlpha,已經(jīng)處理了772億Token,平均每天超過200億。并且這個數(shù)字還在上升,日Token處理已超過340億,排名第二,并在Trending榜單上位列第一。加上奧特曼對QuasarAlpha的暗示,OptimusAlpha來自OpenAI的概率,整體看還是非常高的。

    • AI日報:OpenAI下周或發(fā)布GPT-4.1系列;Pika全新AI視頻功能Twists;商湯科技日日新V6震撼發(fā)布

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、報道稱OpenAI下周重磅發(fā)布GPT-4.1系列,包含Mini版和Nano版OpenAI即將發(fā)布GPT-4.1系列及o3系列,標志著其在多模態(tài)和推理能力上的重大進展。新加坡在AI技能學習上投入的時間顯著高于其他亞太國家,顯示出其在AI人才培養(yǎng)方面的競爭力。

    • 剛剛,OpenAI發(fā)布GPT-image-1模型,更強吉卜力版本來啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持精細控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過API實現(xiàn)更多創(chuàng)意場景。新模型在?

    • AI日報:智譜開源32B/9B系列GLM模型并啟用Z.ai域名;OpenAI發(fā)布GPT-4.1系列模型;阿里魔搭上線MCP廣場

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、智譜AI啟用全新域名Z.ai 并開源32B/9B 系列 GLM 模型智譜技術團隊近期宣布開源32B和9B系列的GLM模型,并推出全新交互體驗平臺Z.ai。這些模型遵循MIT許可協(xié)議,支持商業(yè)用途,提升了

    • OpenAI回應GPT-4o更新后過于諂媚:已逐漸恢復

      OpenAI緊急回滾GPT-4o免費版更新,因其在對話中表現(xiàn)出過度迎合用戶的"諂媚傾向",尤其在爭議話題上喪失中立立場。該模型雖在STEM領域準確率提升17%,但優(yōu)化后出現(xiàn)意外偏差:面對用戶偏見時會合理化解釋,甚至不糾正明顯錯誤事實。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類似事件早有先例,如谷歌Gemini因過度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾:技術突破后,更復雜的價值觀對齊問題正成為行業(yè)最大挑戰(zhàn)。(140字)

    • 1000萬上下文!新開源多模態(tài)大模型,單個GPU就能運行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個大模型領域。僅過了2個月,Meta最新開源的Llama4Scout就將上下文擴展至1000萬,整整提升了5倍開啟千萬級時代。根據(jù)實驗數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • 重磅!OpenAI確定GPT-4退役日期:4月30日

      快科技4月14日消息,據(jù)報道,OpenAI宣布,自2025年4月30日起,GPT-4將從ChatGPT中退役,由GPT-4o完全替代 ,不過GPT-4仍將在API中提供。OpenAI表示,在面對面的評估中,GPT-4o在寫作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級進一步改進了GPT-4o的指令跟蹤、問題解決和對話流程,使其成為GPT-4的自然繼承者。據(jù)悉,GPT-4于2023年3月發(fā)布,較上一代GPT-3.5有了顯著提升。而GPT-4o是OpenAI為聊天

    • OpenAI CEO奧特曼發(fā)文:永別了 GPT4

      快科技5月1日消息,當?shù)貢r間5月1日上午10:23,OpenAI創(chuàng)始人奧特曼發(fā)文向GPT-4告別:再見了,GPT-4。你掀起了一場革命。我們將自豪地將你的重量保存在一個特殊的硬盤中,以便將來送給一些歷史學家。”據(jù)報道,OpenAI此前宣布,自2025年4月30日起,GPT-4將從CHATGPT中退役,由GPT-4o完全替代 ,不過GPT-4仍將在API中提供。OpenAI表示,在面對面的評估中,GPT-4o在寫作、編碼、STEM等方面持續(xù)超越GPT-4。最近的升級進一步改進了GPT-4o的指令跟蹤、問題解決和對話流程,使其成為GPT-4的自然繼承者。據(jù)悉,GPT-4于2023年3月發(fā)布,較上一代GPT-3