无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > Vista-LLaMA最新資訊  > 正文

    ?字節(jié)與浙大聯(lián)合推多模態(tài)大語言模型Vista-LLaMA 可解讀視頻內(nèi)容

    2024-01-08 17:12 · 稿源:站長之家

    **劃重點:**

    - ?? Vista-LLaMA是一種專為視頻內(nèi)容理解而設(shè)計的多模態(tài)大語言模型,能夠輸出高質(zhì)量視頻描述。

    - ?? 通過創(chuàng)新的視覺與語言token處理方式,Vista-LLaMA解決了在視頻內(nèi)容中出現(xiàn)“幻覺”現(xiàn)象的問題。

    - ?? 改良的注意力機制和序列化視覺投影器提高了模型對視頻內(nèi)容的深度理解和時序邏輯把握。

    站長之家(ChinaZ.com)1月8日 消息:在自然語言處理領(lǐng)域,大型語言模型如GPT、GLM和LLaMA等的成功應(yīng)用已經(jīng)取得了顯著的進(jìn)展。然而,將這些技術(shù)擴展到視頻內(nèi)容理解領(lǐng)域則是一項全新的挑戰(zhàn)。字節(jié)跳動與浙江大學(xué)合作推出的Vista-LLaMA多模態(tài)大語言模型旨在解決這一問題,實現(xiàn)對視頻的深度理解和準(zhǔn)確描述。

    技術(shù)創(chuàng)新路徑:

    在處理視頻內(nèi)容時,傳統(tǒng)模型存在一個問題,隨著生成文本長度的增加,視頻內(nèi)容的影響逐漸減弱,產(chǎn)生了“幻覺”現(xiàn)象。為解決這一問題,Vista-LLaMA通過獨特的視覺與語言token處理方式,維持視覺和語言token之間的均等距離,避免了文本生成中的偏差。該模型還采用改良的注意力機制和序列化視覺投影器,提高了模型對視頻內(nèi)容的深度理解和時序邏輯把握。

    image.png

    基準(zhǔn)測試結(jié)果:

    Vista-LLaMA在多個開放式視頻問答基準(zhǔn)測試中表現(xiàn)卓越,尤其在NExT-QA和MSRVTT-QA測試中取得了突破性成績。其在零樣本NExT-QA測試中實現(xiàn)了60.7%的準(zhǔn)確率,在MSRVTT-QA測試中達(dá)到了60.5%的準(zhǔn)確率,超過了目前所有的SOTA方法。這些結(jié)果證明了Vista-LLaMA在視頻內(nèi)容理解和描述生成方面的高效性和精準(zhǔn)性。

    image.png

    CineClipQA新數(shù)據(jù)集:

    Vista-LLaMA的提出伴隨著CineClipQA新數(shù)據(jù)集的發(fā)布,該數(shù)據(jù)集包含了來自五部電影的153個視頻片段,每個片段附有16個定制問題,共計2448個問題。這一數(shù)據(jù)集為多模態(tài)語言模型的發(fā)展提供了更豐富的訓(xùn)練和測試資源。

    Vista-LLaMA的出現(xiàn)為視頻內(nèi)容理解和生成領(lǐng)域帶來了新的解決框架,推動了人工智能在視頻處理和內(nèi)容創(chuàng)作方面的發(fā)展。其在長視頻內(nèi)容方面的顯著優(yōu)勢為未來多模態(tài)交互和自動化內(nèi)容生成領(lǐng)域提供了廣泛的機遇。

    項目體驗網(wǎng)址入口:https://top.aibase.com/tool/vista-llama

    舉報

    • 相關(guān)推薦
    • 剛剛,Llama 4深夜開源擊敗DeepSeek V3!2萬億多模態(tài)巨獸搶回王座

      Llama4重磅發(fā)布了!Meta官宣開源首個原生多模態(tài)Llama4,首次采用的MoE架構(gòu),支持12種語言,首批發(fā)布一共兩款:Llama4Scout:共有1090億參數(shù),17B活躍參數(shù),16個專家,1000萬上下Llama4Maverick:共有4000億參數(shù),17B活躍參數(shù),128個專家,100萬上下文另外,2萬億參數(shù)Llama4Behemoth將在未來幾個月面世,288B活躍參數(shù),16個專家。Llama4的橫空出世,成為迄今為止開源最強,多模態(tài)能力最好的模型之一。L

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu),這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務(wù)的專家”子模型,實現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標(biāo)是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • Meta說他們的 Llama 4 偏見少了!但,“虛假對等”才是真偏見

      Meta公司稱,相比之前的版本,他們最新的人工智能模型Llama4的政治偏見更少了。其中一部分便是通過允許該模型回答更多帶有政治爭議性的問題來實現(xiàn)這一點的。下次當(dāng)你使用Meta的AI產(chǎn)品時,它可能會為“通過服用馬用鎮(zhèn)靜劑來治療新冠病毒”這種觀點說好話!

    • 反擊DeepSeek失?。?span id="op4419h" class="col-red02">Llama 4效果不好,Meta承認(rèn)有問題

      今天凌晨1點半,Meta生成式AI領(lǐng)導(dǎo)者AhmadAl-Dahle在社交平臺發(fā)布了一篇長文,對前天剛開源的Llama4質(zhì)疑進(jìn)行了官方回應(yīng)。Ahmad表示,Llama4一開發(fā)完就發(fā)布了,所以,不同服務(wù)中模型質(zhì)量難免會有一些差異。由于關(guān)稅大戰(zhàn)的原因,Meta的股票遭遇重創(chuàng),他們也需要一個利好消息來拉升股票,現(xiàn)在適得其反。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進(jìn)一步失去開發(fā)者支持。

    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 可靈AI發(fā)布全新2.0模型:上線多模態(tài)視頻編輯功能

      快科技4月16日消息,據(jù)報道,可靈AI在北京舉行靈感成真”2.0模型發(fā)布會,正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹,可靈2.0模型在動態(tài)質(zhì)量、語義響應(yīng)、畫面美學(xué)等維度保持領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。3月27日,全球AI基準(zhǔn)測試機構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模

    • 多模態(tài)和Agent成為大廠AI的新賽 點

      這是《窄播Weekly》的第52期,本期我們關(guān)注的商業(yè)動態(tài)是:當(dāng)大廠的AI競爭策略開始傾斜向應(yīng)用場景,多模態(tài)能力和代理執(zhí)行成為兩個焦點。大模型落地C端場景的核心,就是讓大模型的能力越來越接近人。沿著這個主旋律,可以劃分出兩個進(jìn)化方向:一個是持續(xù)降低用戶與大模型進(jìn)行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復(fù)雜任務(wù)的能力。前者的實現(xiàn),需要給到大模型多

    • 多模態(tài)和Agent成為大廠AI的新賽點

      本期《窄播Weekly》聚焦AI大廠競爭策略向應(yīng)用場景傾斜的趨勢,重點分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出,大模型落地的核心在于讓人機交互更自然,具體表現(xiàn)為:1)通過多模態(tài)技術(shù)降低用戶使用門檻,如阿里夸克新推出的"拍照問夸克"功能;2)通過代理執(zhí)行提升復(fù)雜任務(wù)處理能力,如字節(jié)、百度等推出的通用Agent產(chǎn)品。國內(nèi)外廠商路徑差異明顯:國?

    • 實錘了,Llama 4重測排名掉至32名!遠(yuǎn)不及DeepSeek和Qwen

      LMArena更新了Meta最新發(fā)布的開源大模型Llama-4-Maverick的排名,從此前的第2名,直線掉到了第32名!這也實錘了此前開發(fā)者對Meta為刷榜排名向LMArena提供了“特供版”的Llama4大模型的質(zhì)疑。開源版同款Llama-4-Maverick-17B-128E-Instruct在LMArena的排名為32名,遠(yuǎn)低于Gemini2.5Pro、GPT4o、DeepSeek-V3-0324、DeepSeek-R1、Qwen2.5-Max,甚至連英偉達(dá)基于上一代Llama3.3改造的Llama-3.3-Nemotron-Super-49B-v1都不如。