11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、生圖能力超越Flux1.1Pro!神秘AI模型紅熊貓Red_panda橫空出世一款名為red_panda的神秘AI圖像生成模型在ArtificialAnalysis的基準(zhǔn)測試中表現(xiàn)驚人,超越了行業(yè)領(lǐng)軍企業(yè)的產(chǎn)品。研究旨在提前了解技術(shù)發(fā)展帶來的后果,提出減少廢物的建議。
【新智元導(dǎo)讀】能識(shí)別并轉(zhuǎn)錄18世紀(jì)手稿、還能推測無地標(biāo)照片拍攝地……馬斯克本人也出來官宣:Grok現(xiàn)在能夠理解圖像了!就在剛剛,xAI為Grok增加了圖像理解功能!馬斯克本人也出來官宣了,并稱「Grok現(xiàn)在能夠理解圖像了,甚至還可以解釋笑話」。在馬斯克舉的例子中,Grok根據(jù)給出的這張meme圖,從場景設(shè)置、笑話的前提、轉(zhuǎn)折、幽默之處、額外的幽默層面、視覺笑點(diǎn)6個(gè)方面來解釋了它。我們在幾個(gè)月內(nèi)完成的事情是其他人花費(fèi)數(shù)年時(shí)間才能做到的。
一個(gè)可以自動(dòng)分析PDF、網(wǎng)頁、海報(bào)、Excel圖表內(nèi)容的大模型,對于打工人來說簡直不要太方便。上海AILab,香港中文大學(xué)等研究機(jī)構(gòu)提出的InternLM-XComposer2-4KHD模型讓這成為了現(xiàn)實(shí)。IXC2-4KHD將多模態(tài)大模型支持的分辨率提升到了4K的水平,研究人員表示目前這種通過增加切塊個(gè)數(shù)支持更大圖像輸入的策略遇到了計(jì)算代價(jià)和顯存的瓶頸,因此他們計(jì)劃提出更加高效的策略在未來實(shí)現(xiàn)?
過去一年擴(kuò)散模型風(fēng)頭正勁,徹底改變了文生圖領(lǐng)域!那么,擴(kuò)散模型能否處理視覺感知任務(wù)?字節(jié)跳動(dòng)和復(fù)旦大學(xué)技術(shù)團(tuán)隊(duì)在最新研究中提出了一個(gè)簡單有效的方案。擴(kuò)散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對上的預(yù)訓(xùn)練。隨著技術(shù)的進(jìn)步,這些方法可能會(huì)進(jìn)一步完善。
來自南加州大學(xué)、華盛頓大學(xué)、巴伊蘭大學(xué)和谷歌研究團(tuán)隊(duì)的研究人員推出了DreamSync,這是一種新型人工智能框架,致力于解決擴(kuò)散型文本到圖像模型中對齊和審美吸引力的問題無需進(jìn)行人工標(biāo)注、修改模型架構(gòu)或使用強(qiáng)化學(xué)習(xí)。DreamSync的方法是通過生成候選圖像,利用視覺問答模型對其進(jìn)行評估,然后對文本到圖像模型進(jìn)行微調(diào)。拓展DreamSync的應(yīng)用到其他模型架構(gòu),并在不同場景中進(jìn)行性能評估和額外研究也是未來持續(xù)調(diào)查的方向。
研究人員在最新的一項(xiàng)研究中介紹了Ferret,這是一款多模式語言模型,旨在實(shí)現(xiàn)高級圖像理解和描述。該研究聚焦于視覺-語言學(xué)習(xí)中的關(guān)鍵問題,即如何融合地理信息和語義知識(shí),以便模型能夠同時(shí)引用和定位圖像中的元素。這一研究為多模式語言模型領(lǐng)域帶來了突破性進(jìn)展,為圖像理解和描述提供了新的可能性。