馬斯克XAI發(fā)布Grok-1.5 Vision 多模態(tài)模型可處理文本和圖片信息

2024-04-15 14:07 · 稿源：站長之家

站長之家（ChinaZ.com）4月15日消息:在人工智能領(lǐng)域，多模態(tài)模型的發(fā)展一直是行業(yè)關(guān)注的焦點(diǎn)。近日，馬斯克X AI公司發(fā)布了其最新的多模態(tài)模型——Grok-1.5Vision，這一模型不僅能夠處理文本信息，還能夠理解和分析各種視覺數(shù)據(jù)，如文檔、圖表、截圖和照片，標(biāo)志著公司在人工智能技術(shù)上邁出了重要一步。

Grok-1.5Vision模型在多項(xiàng)基準(zhǔn)測試中展現(xiàn)了其卓越的性能，與業(yè)界領(lǐng)先的GPT4V模型相比，不僅不相上下，甚至在多個指標(biāo)上實(shí)現(xiàn)了超越。特別值得一提的是，在新推出的RealWorldQA真實(shí)世界物理空間基準(zhǔn)測試中，Grok-1.5Vision模型的表現(xiàn)超越了GPT4V以及其他所有參與測試的模型。

RealWorldQA基準(zhǔn)測試是一項(xiàng)新的評估標(biāo)準(zhǔn)，旨在測試多模態(tài)模型對真實(shí)世界物理空間的理解能力。該測試包含了超過700個問題和答案，主要采用來自車輛前攝像頭等實(shí)際環(huán)境中的圖像。Grok-1.5Vision模型在這一測試中的優(yōu)異表現(xiàn)，得益于其在多學(xué)科推理和理解文檔、科學(xué)圖表等方面的出色能力。

此外，Grok-1.5Vision模型在不使用思維鏈提示的情況下，在多個數(shù)據(jù)集上的對比測試中也展現(xiàn)了令人矚目的表現(xiàn)。這表明該模型在處理和理解現(xiàn)實(shí)世界空間方面具有強(qiáng)大的能力，這對于推動人工智能技術(shù)的實(shí)際應(yīng)用具有重要意義。

馬斯克X AI還提供了應(yīng)用代碼示例，展示了Grok-1.5Vision模型如何將流程圖轉(zhuǎn)化為Python代碼，并執(zhí)行一個簡單的猜數(shù)字游戲。這些示例不僅展示了模型的實(shí)際應(yīng)用潛力，也為開發(fā)者提供了寶貴的參考。

Grok-1.5Vision模型的發(fā)布，不僅展示了馬斯克X AI在人工智能領(lǐng)域的技術(shù)實(shí)力，也為未來多模態(tài)模型的發(fā)展和應(yīng)用開辟了新的可能性。隨著該模型的進(jìn)一步優(yōu)化和應(yīng)用，我們有理由相信，它將在多個領(lǐng)域發(fā)揮重要作用，推動人工智能技術(shù)向前發(fā)展。

官網(wǎng)地址:https://top.aibase.com/tool/grok-1-5-vision-preview

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

阿里Qwen3發(fā)布后馬斯克立刻官宣：下周推出Grok 3.5

快科技4月29日消息，馬斯克剛剛在社交平臺X上稱，下周將向SuperGrok訂閱者推出Grok 3.5，并將該條信息頂置。據(jù)馬斯克稱，Grok 3.5是第一個能夠準(zhǔn)確回答有關(guān)火箭發(fā)動機(jī)或電化學(xué)技術(shù)問題的人工智能。同時(shí)，Grok可以從第一原理推理并得出互聯(lián)網(wǎng)上根本不存在的答案。Grok 3.5被馬斯克旗下的xAI宣傳為全球首個人工智能能從第一性原理推理，生成網(wǎng)絡(luò)上不存在的答案”。而今年2月18日，xAI正式發(fā)布Grok 3，并在兩天后把Grok 3免費(fèi)向所有公眾開放，超越ChatGPT,登頂蘋果應(yīng)用商店免費(fèi)應(yīng)用下載排行榜第一名。馬斯克曾稱Grok 3為地球上最聰明的人工智

?馬斯克 ?Grok ?3.5
馬斯克：下周推出Grok 3.5 能準(zhǔn)確回答火箭相關(guān)問題

xAI公司宣布其Grok3.5測試版將于下周正式推出，這一消息在技術(shù)社區(qū)引起了廣泛關(guān)注。首批測試版將僅對SuperGrok訂閱用戶開放，訂閱費(fèi)用為每月30美元。據(jù)AIbase了解，Grok3.5在火箭發(fā)動機(jī)和電化學(xué)等領(lǐng)域的精準(zhǔn)技術(shù)解答能力引發(fā)了熱議

?Grok3.5 ?xAI公司 ?技術(shù)推理
可靈AI發(fā)布全新2.0模型：上線多模態(tài)視頻編輯功能

快科技4月16日消息，據(jù)報(bào)道，可靈AI在北京舉行靈感成真”2.0模型發(fā)布會，正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹，可靈2.0模型在動態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度保持領(lǐng)先；可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。3月27日，全球AI基準(zhǔn)測試機(jī)構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單，快手可靈1.6pro（高品質(zhì)模

?可靈AI ?視頻生成模型 ?圖像生成模型
薦多模態(tài)和Agent成為大廠AI的新賽點(diǎn)

這是《窄播Weekly》的第52期，本期我們關(guān)注的商業(yè)動態(tài)是:當(dāng)大廠的AI競爭策略開始傾斜向應(yīng)用場景，多模態(tài)能力和代理執(zhí)行成為兩個焦點(diǎn)。大模型落地C端場景的核心，就是讓大模型的能力越來越接近人。沿著這個主旋律，可以劃分出兩個進(jìn)化方向:一個是持續(xù)降低用戶與大模型進(jìn)行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復(fù)雜任務(wù)的能力。前者的實(shí)現(xiàn)，需要給到大模型多

?AI競爭策略 ?多模態(tài)能力 ?大模型應(yīng)用
薦多模態(tài)和Agent成為大廠AI的新賽點(diǎn)

本期《窄播Weekly》聚焦AI大廠競爭策略向應(yīng)用場景傾斜的趨勢，重點(diǎn)分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出，大模型落地的核心在于讓人機(jī)交互更自然，具體表現(xiàn)為：1）通過多模態(tài)技術(shù)降低用戶使用門檻，如阿里夸克新推出的"拍照問夸克"功能；2）通過代理執(zhí)行提升復(fù)雜任務(wù)處理能力，如字節(jié)、百度等推出的通用Agent產(chǎn)品。國內(nèi)外廠商路徑差異明顯：國?

?AI應(yīng)用場景 ?多模態(tài)能力 ?代理執(zhí)行
薦剛剛，商湯發(fā)布第六代大模型：6000億參數(shù)多模態(tài)MoE，中長視頻直接可推理

現(xiàn)在的國產(chǎn)AI應(yīng)用，一口氣看好幾分鐘的視頻，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就搖身一變成“名偵探”做剖析:它會對整個視頻的內(nèi)容先做一個總結(jié)，再按照秒級，對視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認(rèn)為:銀河通用合伙人、大模型負(fù)責(zé)人張直政表示:除此之外，上海交通大學(xué)副教授閆維新對這個問題的看法是:總言之，商湯作為國?

?國產(chǎn)AI ?視頻解析 ?智能剪輯
薦1000萬上下文！新開源多模態(tài)大模型，單個GPU就能運(yùn)行

今年2月初，谷歌發(fā)布的Gemini2.0Pro支持200萬上下文，震驚了整個大模型領(lǐng)域。僅過了2個月，Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬，整整提升了5倍開啟千萬級時(shí)代。根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示，Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

?Gemini2.0Pro ?Llama4Scout ?上下文擴(kuò)展
薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架，首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼，有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略（視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)），UniToken在多個基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在：1）統(tǒng)一的雙邊視覺編碼

?UniToken ?多模態(tài)建模 ?視覺編碼
蘋果Siri團(tuán)隊(duì)大換血！Vision Pro班底全面上馬

蘋果正對Siri團(tuán)隊(duì)進(jìn)行大規(guī)模重組，由新任工程主管Mike Rockwell主導(dǎo)改革。Rockwell從Vision Pro項(xiàng)目調(diào)來核心成員，重組了語音、理解、性能等關(guān)鍵團(tuán)隊(duì)。Vision Pro項(xiàng)目副手Ranjit Desai將負(fù)責(zé)Siri主要工程事務(wù)，Olivier Gutknecht接手用戶體驗(yàn)設(shè)計(jì)。此次重組旨在簡化開發(fā)流程，提升Siri功能。蘋果AI/ML團(tuán)隊(duì)此前因管理混亂被員工戲稱為"AI/less"。業(yè)內(nèi)建議蘋果應(yīng)考慮重塑Siri品牌形象，推出全新數(shù)字助手以擺脫負(fù)面評價(jià)。

?蘋果 ?Siri重組 ?用戶體驗(yàn)
全球第一個會原創(chuàng)的AI來了！馬斯克：Grok 3.5將提供互聯(lián)網(wǎng)上根本不存在的答案

馬斯克宣布Grok 3.5早期測試版將于下周發(fā)布，該AI模型將采用"第一性原理"推理方式，能準(zhǔn)確回答火箭發(fā)動機(jī)和電化學(xué)技術(shù)等專業(yè)問題。與現(xiàn)有AI依賴網(wǎng)絡(luò)搜索不同，Grok 3.5通過推理模型從頭創(chuàng)建答案，可能提供互聯(lián)網(wǎng)上不存在的獨(dú)特解決方案。馬斯克稱這將是全球首個能"原創(chuàng)"的AI。目前Grok 3下載量已飆升10倍，新版本將面向SuperGrok訂閱者開放。該技術(shù)雖需更高算力成本，但代表了AI推理能力的重大突破。未來幾周將公布更多性能細(xì)節(jié)。

?馬斯克 ?Grok ?3.5

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

馬斯克XAI發(fā)布Grok-1.5 Vision 多模態(tài)模型可處理文本和圖片信息

阿里Qwen3發(fā)布后馬斯克立刻官宣：下周推出Grok 3.5

馬斯克：下周推出Grok 3.5 能準(zhǔn)確回答火箭相關(guān)問題

可靈AI發(fā)布全新2.0模型：上線多模態(tài)視頻編輯功能

薦多模態(tài)和Agent成為大廠AI的新賽點(diǎn)

薦多模態(tài)和Agent成為大廠AI的新賽點(diǎn)

薦剛剛，商湯發(fā)布第六代大模型：6000億參數(shù)多模態(tài)MoE，中長視頻直接可推理

薦1000萬上下文！新開源多模態(tài)大模型，單個GPU就能運(yùn)行

薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

蘋果Siri團(tuán)隊(duì)大換血！Vision Pro班底全面上馬

全球第一個會原創(chuàng)的AI來了！馬斯克：Grok 3.5將提供互聯(lián)網(wǎng)上根本不存在的答案

熱文

印度將中國電子投資壓股至 10%，且要求“技術(shù)轉(zhuǎn)讓”

“AI教父”杰弗里·辛頓再次發(fā)出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

美國網(wǎng)購市場動蕩，希音、Temu 率先在美開啟“漲價(jià)潮”！

站長商機(jī)

馬斯克XAI發(fā)布Grok-1.5 Vision 多模態(tài)模型 可處理文本和圖片信息

熱文

站長商機(jī)

馬斯克XAI發(fā)布Grok-1.5 Vision 多模態(tài)模型可處理文本和圖片信息