无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<dd id="eaoxc"><acronym id="eaoxc"><form id="eaoxc"></form></acronym></dd>

通用物體級基礎(chǔ)模型GLEE：增強(qiáng)圖像和視頻分析

2023-12-18 10:19 · 稿源：站長之家

**劃重點(diǎn):**
1. ?? GLEE是一種通用物體級別基礎(chǔ)模型，由華中科技大學(xué)、字節(jié)跳動和約翰斯·霍普金斯大學(xué)的研究人員共同推出，突破了當(dāng)前視覺基礎(chǔ)模型的限制，提供準(zhǔn)確而全面的物體級信息。
2. ?? GLEE以其在各種任務(wù)中表現(xiàn)卓越的通用性而聞名，無需特定任務(wù)適應(yīng)即可在不同對象感知任務(wù)中定位和識別物體，同時(shí)集成大型語言模型以提供多模態(tài)研究的通用物體級信息。
3. ?? 該模型展現(xiàn)出出色的靈活性和卓越的泛化能力，特別在零樣本傳輸場景中表現(xiàn)突出。通過整合各種數(shù)據(jù)源，包括自動標(biāo)記的大量數(shù)據(jù)，GLEE不僅實(shí)現(xiàn)了可擴(kuò)展的數(shù)據(jù)集擴(kuò)展，還提高了零樣本能力，成為未來圖像和視頻任務(wù)的基礎(chǔ)模型。

站長之家（ChinaZ.com）12月18日消息:近日，來自華中科技大學(xué)、字節(jié)跳動和約翰斯·霍普金斯大學(xué)的研究人員推出了一款名為GLEE的全新通用物體級別基礎(chǔ)模型，為圖像和視頻分析帶來了全新的可能性。這一技術(shù)突破依賴深度學(xué)習(xí)的神奇，使計(jì)算機(jī)視覺系統(tǒng)能夠像虛擬偵探一樣，在數(shù)字體驗(yàn)的畫布上識別、跟蹤和理解各種物體。

GLEE的獨(dú)特之處在于其卓越的通用性，無需特定任務(wù)的適應(yīng)即可在各種任務(wù)中定位和識別物體。該模型集成了圖像編碼器、文本編碼器和視覺提示器，用于多模態(tài)輸入處理和廣義物體表示預(yù)測。通過在Objects365、COCO和Visual Genome等多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練，GLEE采用統(tǒng)一框架，涵蓋檢測、分割、跟蹤、定位和識別開放場景中的對象。

GLEE通過使用動態(tài)類頭的MaskDINO以及相似性計(jì)算進(jìn)行預(yù)測的對象解碼器，經(jīng)過目標(biāo)檢測和實(shí)例分割的預(yù)訓(xùn)練，聯(lián)合訓(xùn)練實(shí)現(xiàn)了在各種圖像和視頻任務(wù)中的最先進(jìn)性能。不僅如此，GLEE還展現(xiàn)了卓越的靈活性和強(qiáng)大的泛化能力，有效應(yīng)對各種下游任務(wù)，無需特定任務(wù)的適應(yīng)。

該模型在對象檢測、實(shí)例分割、定位、多目標(biāo)跟蹤、視頻實(shí)例分割、視頻對象分割以及交互式分割和跟蹤等各種圖像和視頻任務(wù)中均表現(xiàn)卓越。甚至在與其他模型集成時(shí)，GLEE仍保持著最先進(jìn)性能，展示了其表示的多樣性和有效性。

除了在技術(shù)上的突破，GLEE在零樣本泛化方面也取得了顯著進(jìn)展，通過整合大量自動標(biāo)記的數(shù)據(jù)進(jìn)一步提升了模型的性能。作為一種基礎(chǔ)模型，GLEE為當(dāng)前視覺基礎(chǔ)模型的局限性提供了創(chuàng)新性的解決方案，提供準(zhǔn)確而通用的物體級信息。

研究的未來方向聚焦在擴(kuò)展GLEE在處理復(fù)雜場景和具有長尾分布的挑戰(zhàn)性數(shù)據(jù)集方面的能力上，以提高其適應(yīng)性。此外，研究人員還探索了在訓(xùn)練過程中使用廣泛的圖像-標(biāo)題對，類似于DALL-E模型，從而提高GLEE生成詳細(xì)圖像內(nèi)容的潛力。

項(xiàng)目體驗(yàn)網(wǎng)址點(diǎn)擊這里:https://top.aibase.com/tool/glee

論文網(wǎng)址:https://arxiv.org/abs/2312.09158

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

字節(jié)發(fā)布豆包1.5深度思考模型：“實(shí)拍級”圖像生成

快科技4月17日消息，據(jù)報(bào)道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場，字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中，它能夠精準(zhǔn)高效地處理復(fù)雜問題；在創(chuàng)意寫作等通用任務(wù)方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動技術(shù)發(fā)布
薦AI日報(bào)：Kimi全新音頻基礎(chǔ)模型Kimi-Audio；階躍星辰開源圖像編輯模型Step1X-Edit；?夸克AI超級框上線 “拍照問夸克”

本期AI日報(bào)聚焦多項(xiàng)AI技術(shù)突破與應(yīng)用：1)Moonshot AI推出開源音頻模型Kimi-Audio，基于13億小時(shí)訓(xùn)練數(shù)據(jù)，支持語音識別等任務(wù)；2)階躍星辰開源圖像編輯模型Step1X-Edit，展現(xiàn)強(qiáng)大生成能力；3)夸克AI上線"拍照問夸克"功能，實(shí)現(xiàn)視覺問答；4)蘋果iOS18.5將在中國推送，帶來智能功能；5)谷歌發(fā)布601個(gè)生成式AI應(yīng)用案例，覆蓋多行業(yè)；6)微軟推出深度整合Windows的UFO2自動化系統(tǒng)；7)OpenAI升級ChatGPT至GPT-4o版本，提升STEM領(lǐng)域能力；8)Ema公司推出高性價(jià)比語言模型EmaFusion；9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型；10)LemonAI推出實(shí)時(shí)音視頻數(shù)字人產(chǎn)品Slice Live。此外，國內(nèi)方面，智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動大模型發(fā)展，寶馬中國宣布新車將接入DeepSeek技術(shù)。

?AI日報(bào) ?音頻技術(shù) ?開源模型
薦秒殺同行！Kimi開源全新音頻基礎(chǔ)模型，橫掃十多項(xiàng)基準(zhǔn)測試，總體性能第一

Kimi-Audio是一款開源的通用音頻基礎(chǔ)模型，在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務(wù)中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設(shè)計(jì)，包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件，支持多模態(tài)輸入處理。在十余項(xiàng)音頻基準(zhǔn)測試中，Kimi-Audio均取得領(lǐng)先性能，如LibriSpeech ASR測試WER僅1.28%，VocalSound測試達(dá)94.85%。模型使用1300萬小時(shí)多語言音頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，并構(gòu)建了自動處理流水線生成高質(zhì)量訓(xùn)練數(shù)據(jù)。評估結(jié)果顯示，Kimi-Audio在語音識別、音樂理解、語音情感分析等任務(wù)上全面超越同類模型，在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點(diǎn)和評估工具包已在GitHub開源。

?音頻模型 ?語音識別 ?開源項(xiàng)目
AI日報(bào)：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
華北極端大風(fēng)增強(qiáng)：北京已出現(xiàn)10級大風(fēng) 局地有冰雹

一場范圍廣、強(qiáng)度強(qiáng)的大風(fēng)天氣正在影響我國，周末它將席卷大半個(gè)中國，部分地區(qū)風(fēng)力致災(zāi)性和極端性強(qiáng)。截至20時(shí)，北京海淀、朝陽、石景山、門頭溝、房山、昌平陣風(fēng)已經(jīng)達(dá)到6級，延慶佛爺頂陣風(fēng)已經(jīng)達(dá)到8級，門頭溝高山玫瑰園出現(xiàn)10級陣風(fēng)。另外城區(qū)的樓宇之間，以及東西走向或南北走向的主干道區(qū)域，因?yàn)楠M管效應(yīng)也會導(dǎo)致風(fēng)速進(jìn)一步加大，需特別注意防范。

?大風(fēng)天氣 ?氣象預(yù)警 ?強(qiáng)對流天氣
阿里開源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報(bào)道，阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面，智能生成720p高清過渡視頻，為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法，能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后，模型會智能分析畫面中的視覺元素，包括物體形?

?阿里巴巴 ?通義萬相 ?視頻生成技術(shù)
薦從大模型到AI基礎(chǔ)設(shè)施，商湯的反向求解

大模型落地如火如荼，從上一代AI浪潮中殺出來的商湯，嗅到了這里面新的機(jī)會。在最火的具身智能賽道，這兩年誕生了許多明星創(chuàng)業(yè)公司。這些創(chuàng)業(yè)公司的創(chuàng)始人往往擁有技術(shù)明星的光環(huán)，不少都是在學(xué)術(shù)界中某個(gè)技術(shù)領(lǐng)域中響當(dāng)當(dāng)?shù)念I(lǐng)頭人。這些初創(chuàng)公司雖然在某一個(gè)單點(diǎn)技術(shù)上遙遙領(lǐng)先（大腦、小腦或者本體），但在機(jī)器人落地過程中，要突破從單一技術(shù)到整體復(fù)雜產(chǎn)品

?大模型 ?具身智能 ?機(jī)器人技術(shù)
首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o(jì)3/o4-mini：史上最強(qiáng)、最智能模型

快科技4月17日消息，今日，OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布，這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解，OpenAI o3/o4-mini首次具備真正的視覺推理能力，看圖識圖已經(jīng)是小菜一碟了，現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時(shí)處理文本、圖像和音頻，并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí)，OpenAI訓(xùn)練了o3/o4-mini如何?

?OpenAI ?AI模型 ?視覺推理
微美全息（WIMI.US）探索量子圖像壓縮算法，引領(lǐng)圖像處理領(lǐng)域顛覆性創(chuàng)新

量子計(jì)算作為信息技術(shù)領(lǐng)域的顛覆性力量，其在量子圖像處理和圖像壓縮領(lǐng)域也顯示出巨大的技術(shù)潛力。隨著數(shù)字圖像處理技術(shù)的不斷演進(jìn)，傳統(tǒng)圖像處理算法，本質(zhì)上依賴于并行計(jì)算，然，隨著圖像數(shù)量和分辨率的快速增長，這些經(jīng)典算法在計(jì)算資源和時(shí)間消耗上存在局限性。量子圖像壓縮技術(shù)的深入研究也將促進(jìn)量子算法和量子信息處理理論的進(jìn)一步發(fā)展，為量子信息技術(shù)的廣泛應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ)，推動數(shù)字圖像處理技術(shù)邁向新的高度，實(shí)現(xiàn)更高效、更智能的圖像處理和壓縮。

?量子計(jì)算 ?圖像處理 ?圖像壓縮
DeepSeek上新！開源發(fā)布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹，DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多種計(jì)算精度，方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上，該模型使用了DeepSeek-V3架構(gòu)，采用MoE（混合專家）模式，具有61層Transformer層，7168維隱藏層。同時(shí)支持超長上下文，最大位置嵌入達(dá)163840，使其能處理復(fù)雜的數(shù)學(xué)證明，并且采用了FP8量化，可通過量化技術(shù)減小模型大小，提

?DeepSeek ?AI模型發(fā)布 ?開源社區(qū)

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<cite id="opyg1"></cite>