无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > GLEE最新資訊  > 正文

    通用物體級基礎(chǔ)模型GLEE:增強(qiáng)圖像和視頻分析

    2023-12-18 10:19 · 稿源:站長之家

    **劃重點(diǎn):**

    1. ?? GLEE是一種通用物體級別基礎(chǔ)模型,由華中科技大學(xué)、字節(jié)跳動和約翰斯·霍普金斯大學(xué)的研究人員共同推出,突破了當(dāng)前視覺基礎(chǔ)模型的限制,提供準(zhǔn)確而全面的物體級信息。

    2. ?? GLEE以其在各種任務(wù)中表現(xiàn)卓越的通用性而聞名,無需特定任務(wù)適應(yīng)即可在不同對象感知任務(wù)中定位和識別物體,同時(shí)集成大型語言模型以提供多模態(tài)研究的通用物體級信息。

    3. ?? 該模型展現(xiàn)出出色的靈活性和卓越的泛化能力,特別在零樣本傳輸場景中表現(xiàn)突出。通過整合各種數(shù)據(jù)源,包括自動標(biāo)記的大量數(shù)據(jù),GLEE不僅實(shí)現(xiàn)了可擴(kuò)展的數(shù)據(jù)集擴(kuò)展,還提高了零樣本能力,成為未來圖像和視頻任務(wù)的基礎(chǔ)模型。

    站長之家(ChinaZ.com)12月18日 消息:近日,來自華中科技大學(xué)、字節(jié)跳動和約翰斯·霍普金斯大學(xué)的研究人員推出了一款名為GLEE的全新通用物體級別基礎(chǔ)模型,為圖像和視頻分析帶來了全新的可能性。這一技術(shù)突破依賴深度學(xué)習(xí)的神奇,使計(jì)算機(jī)視覺系統(tǒng)能夠像虛擬偵探一樣,在數(shù)字體驗(yàn)的畫布上識別、跟蹤和理解各種物體。

    image.png

    GLEE的獨(dú)特之處在于其卓越的通用性,無需特定任務(wù)的適應(yīng)即可在各種任務(wù)中定位和識別物體。該模型集成了圖像編碼器、文本編碼器和視覺提示器,用于多模態(tài)輸入處理和廣義物體表示預(yù)測。通過在Objects365、COCO和Visual Genome等多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練,GLEE采用統(tǒng)一框架,涵蓋檢測、分割、跟蹤、定位和識別開放場景中的對象。

    GLEE通過使用動態(tài)類頭的MaskDINO以及相似性計(jì)算進(jìn)行預(yù)測的對象解碼器,經(jīng)過目標(biāo)檢測和實(shí)例分割的預(yù)訓(xùn)練,聯(lián)合訓(xùn)練實(shí)現(xiàn)了在各種圖像和視頻任務(wù)中的最先進(jìn)性能。不僅如此,GLEE還展現(xiàn)了卓越的靈活性和強(qiáng)大的泛化能力,有效應(yīng)對各種下游任務(wù),無需特定任務(wù)的適應(yīng)。

    該模型在對象檢測、實(shí)例分割、定位、多目標(biāo)跟蹤、視頻實(shí)例分割、視頻對象分割以及交互式分割和跟蹤等各種圖像和視頻任務(wù)中均表現(xiàn)卓越。甚至在與其他模型集成時(shí),GLEE仍保持著最先進(jìn)性能,展示了其表示的多樣性和有效性。

    image.png

    除了在技術(shù)上的突破,GLEE在零樣本泛化方面也取得了顯著進(jìn)展,通過整合大量自動標(biāo)記的數(shù)據(jù)進(jìn)一步提升了模型的性能。作為一種基礎(chǔ)模型,GLEE為當(dāng)前視覺基礎(chǔ)模型的局限性提供了創(chuàng)新性的解決方案,提供準(zhǔn)確而通用的物體級信息。

    研究的未來方向聚焦在擴(kuò)展GLEE在處理復(fù)雜場景和具有長尾分布的挑戰(zhàn)性數(shù)據(jù)集方面的能力上,以提高其適應(yīng)性。此外,研究人員還探索了在訓(xùn)練過程中使用廣泛的圖像-標(biāo)題對,類似于DALL-E模型,從而提高GLEE生成詳細(xì)圖像內(nèi)容的潛力。

    項(xiàng)目體驗(yàn)網(wǎng)址點(diǎn)擊這里:https://top.aibase.com/tool/glee

    論文網(wǎng)址:https://arxiv.org/abs/2312.09158

    舉報(bào)

    • 相關(guān)推薦
    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實(shí)拍圖像生成

      快科技4月17日消息,據(jù)報(bào)道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中,它能夠精準(zhǔn)高效地處理復(fù)雜問題;在創(chuàng)意寫作等通用任務(wù)方面,同樣表現(xiàn)出色。該模型采用MoE架構(gòu),總參數(shù)為200B,激?

    • AI日報(bào):Kimi全新音頻基礎(chǔ)模型Kimi-Audio;階躍星辰開源圖像編輯模型Step1X-Edit;?夸克AI超級框上線 “拍照問夸克”

      本期AI日報(bào)聚焦多項(xiàng)AI技術(shù)突破與應(yīng)用:1)Moonshot AI推出開源音頻模型Kimi-Audio,基于13億小時(shí)訓(xùn)練數(shù)據(jù),支持語音識別等任務(wù);2)階躍星辰開源圖像編輯模型Step1X-Edit,展現(xiàn)強(qiáng)大生成能力;3)夸克AI上線"拍照問夸克"功能,實(shí)現(xiàn)視覺問答;4)蘋果iOS18.5將在中國推送,帶來智能功能;5)谷歌發(fā)布601個(gè)生成式AI應(yīng)用案例,覆蓋多行業(yè);6)微軟推出深度整合Windows的UFO2自動化系統(tǒng);7)OpenAI升級ChatGPT至GPT-4o版本,提升STEM領(lǐng)域能力;8)Ema公司推出高性價(jià)比語言模型EmaFusion;9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型;10)LemonAI推出實(shí)時(shí)音視頻數(shù)字人產(chǎn)品Slice Live。此外,國內(nèi)方面,智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動大模型發(fā)展,寶馬中國宣布新車將接入DeepSeek技術(shù)。

    • 秒殺同行!Kimi開源全新音頻基礎(chǔ)模型,橫掃十多項(xiàng)基準(zhǔn)測試,總體性能第一

      Kimi-Audio是一款開源的通用音頻基礎(chǔ)模型,在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務(wù)中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設(shè)計(jì),包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件,支持多模態(tài)輸入處理。在十余項(xiàng)音頻基準(zhǔn)測試中,Kimi-Audio均取得領(lǐng)先性能,如LibriSpeech ASR測試WER僅1.28%,VocalSound測試達(dá)94.85%。模型使用1300萬小時(shí)多語言音頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并構(gòu)建了自動處理流水線生成高質(zhì)量訓(xùn)練數(shù)據(jù)。評估結(jié)果顯示,Kimi-Audio在語音識別、音樂理解、語音情感分析等任務(wù)上全面超越同類模型,在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點(diǎn)和評估工具包已在GitHub開源。

    • AI日報(bào):阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B,性能?

    • 華北極端大風(fēng)增強(qiáng):北京已出現(xiàn)10大風(fēng) 局地有冰雹

      一場范圍廣、強(qiáng)度強(qiáng)的大風(fēng)天氣正在影響我國,周末它將席卷大半個(gè)中國,部分地區(qū)風(fēng)力致災(zāi)性和極端性強(qiáng)。截至20時(shí),北京海淀、朝陽、石景山、門頭溝、房山、昌平陣風(fēng)已經(jīng)達(dá)到6級,延慶佛爺頂陣風(fēng)已經(jīng)達(dá)到8級,門頭溝高山玫瑰園出現(xiàn)10級陣風(fēng)。另外城區(qū)的樓宇之間,以及東西走向或南北走向的主干道區(qū)域,因?yàn)楠M管效應(yīng)也會導(dǎo)致風(fēng)速進(jìn)一步加大,需特別注意防范。

    • 阿里開源通義新模型:指定首尾圖片生成視頻

      快科技4月18日消息,據(jù)報(bào)道,阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面,智能生成720p高清過渡視頻,為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法,能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后,模型會智能分析畫面中的視覺元素,包括物體形?

    • 從大模型到AI基礎(chǔ)設(shè)施,商湯的反向求解

      大模型落地如火如荼,從上一代AI浪潮中殺出來的商湯,嗅到了這里面新的機(jī)會。在最火的具身智能賽道,這兩年誕生了許多明星創(chuàng)業(yè)公司。這些創(chuàng)業(yè)公司的創(chuàng)始人往往擁有技術(shù)明星的光環(huán),不少都是在學(xué)術(shù)界中某個(gè)技術(shù)領(lǐng)域中響當(dāng)當(dāng)?shù)念I(lǐng)頭人。這些初創(chuàng)公司雖然在某一個(gè)單點(diǎn)技術(shù)上遙遙領(lǐng)先(大腦、小腦或者本體),但在機(jī)器人落地過程中,要突破從單一技術(shù)到整體復(fù)雜產(chǎn)品

    • 首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o(jì)3/o4-mini:史上最強(qiáng)、最智能模型

      快科技4月17日消息,今日,OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識圖已經(jīng)是小菜一碟了,現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時(shí)處理文本、圖像和音頻,并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí),OpenAI訓(xùn)練了o3/o4-mini如何?

    • 微美全息(WIMI.US)探索量子圖像壓縮算法,引領(lǐng)圖像處理領(lǐng)域顛覆性創(chuàng)新

      量子計(jì)算作為信息技術(shù)領(lǐng)域的顛覆性力量,其在量子圖像處理和圖像壓縮領(lǐng)域也顯示出巨大的技術(shù)潛力。隨著數(shù)字圖像處理技術(shù)的不斷演進(jìn),傳統(tǒng)圖像處理算法,本質(zhì)上依賴于并行計(jì)算,然,隨著圖像數(shù)量和分辨率的快速增長,這些經(jīng)典算法在計(jì)算資源和時(shí)間消耗上存在局限性。量子圖像壓縮技術(shù)的深入研究也將促進(jìn)量子算法和量子信息處理理論的進(jìn)一步發(fā)展,為量子信息技術(shù)的廣泛應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ),推動數(shù)字圖像處理技術(shù)邁向新的高度,實(shí)現(xiàn)更高效、更智能的圖像處理和壓縮。

    • DeepSeek上新!開源發(fā)布DeepSeek-Prover-V2-671B新模型

      快科技4月30日消息,今日,DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計(jì)算精度,方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時(shí)支持超長上下文,最大位置嵌入達(dá)163840,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過量化技術(shù)減小模型大小,提