无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<button id="gwaec"><rt id="gwaec"></rt></button>

<small id="gwaec"></small>

<table id="gwaec"><pre id="gwaec"></pre></table>

谷歌、CMU研究表明：語言模型通過使用良好的視覺tokenizer擊敗了擴(kuò)散模型

2023-10-11 14:38 · 稿源：站長之家

要點:
1. 研究表明，在圖像和視頻生成領(lǐng)域，語言模型通過使用良好的視覺 tokenizer 首次擊敗了擴(kuò)散模型，強(qiáng)調(diào)了 tokenizer 的重要性。
2. 傳統(tǒng)大型語言模型（LLM）在圖像生成方面一直落后于擴(kuò)散模型，主要原因是缺乏有效的視覺表示。
3. 新研究引入了名為MAGVIT-v2的視頻 tokenizer，采用無查找量化和增強(qiáng)功能的設(shè)計，取得了在圖像和視頻生成、視頻壓縮以及動作識別領(lǐng)域的顯著性能提升。

站長之家（ChinaZ.com）10月11日消息:來自谷歌、CMU 的研究發(fā)現(xiàn)，語言模型在圖像、視頻生成領(lǐng)域的性能一直不如擴(kuò)散模型，主要原因是缺乏有效的視覺表示。

然而，通過引入一種名為MAGVIT-v2的視頻 tokenizer，采用無查找量化和增強(qiáng)功能的設(shè)計，研究者成功改進(jìn)了圖像和視頻生成的質(zhì)量，超越了現(xiàn)有技術(shù)。

論文地址:https://arxiv.org/pdf/2310.05737.pdf

實驗證實，良好的視覺 tokenizer 在使語言模型生成高質(zhì)量圖像和視頻方面具有關(guān)鍵作用。

這一研究的重要性在于它為語言模型的多模態(tài)應(yīng)用提供了新的思路，通過將視覺和語言統(tǒng)一在相同的 token 空間中，可以提高多模態(tài)語言模型的性能，加快視頻應(yīng)用的處理速度，并提高視頻壓縮質(zhì)量。

此外，新的 token 也提供了更好的視覺理解，增強(qiáng)了模型的魯棒性和泛化性。通過這一研究，我們可以看到語言模型在視覺生成領(lǐng)域的潛力，以及如何通過創(chuàng)新的設(shè)計和改進(jìn)來實現(xiàn)更好的性能。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

語言模型

時空壺接入大語言模型，跨語言溝通已成翻譯的藝術(shù)

在當(dāng)今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判，到文化交流中的思想碰撞，高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動全球交流合作邁向新的高度，真正實現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設(shè)備
首次亮相“世界互聯(lián)網(wǎng)大會亞太峰會”，易鑫宣布年內(nèi)發(fā)布業(yè)內(nèi)首個Agentic大模型

4 月 14 日至 15 日，由世界互聯(lián)網(wǎng)大會主辦、香港特別行政區(qū)政府承辦的“世界互聯(lián)網(wǎng)大會亞太峰會”在香港舉行。AI驅(qū)動的金融科技平臺易鑫（02858.HK）首度亮相該峰會，宣布將于年內(nèi)推出汽車金融行業(yè)首個Agentic大模型。易鑫首席AI科學(xué)家、高級副總裁張磊演講現(xiàn)場此次峰會全面聚焦人工智能，以“數(shù)智融合引領(lǐng)未來——攜手構(gòu)建網(wǎng)絡(luò)空間命運共同體”為主題，被視為亞太地區(qū)

?世界互聯(lián)網(wǎng)大會 ?亞太峰會 ?人工智能
奔馳新款CLA接入豆包大模型

4月22日，奔馳與火山引擎合作的首款國產(chǎn)純電車型CLA全球首發(fā)亮相。該車搭載奔馳自研MB.OS架構(gòu)，接入火山引擎大模型，支持個性化智能交互體驗。智能系統(tǒng)可識別4種情緒并給予反饋，交互效率提升50%，喚醒僅需0.2秒。虛擬助手能解答百科問題并協(xié)助車輛功能設(shè)置。這是雙方繼2024年8月達(dá)成AI戰(zhàn)略合作后落地的首款量產(chǎn)車型，結(jié)合生成式AI和大數(shù)據(jù)技術(shù)，為中國用戶打造更智能的用車體驗。

?梅賽德斯-奔馳 ?全新純電長軸距 ?CLA
阿丘科技李嘉悅：大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

3月28日，由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會現(xiàn)場，圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題，發(fā)表了精彩演講。”今年，在這個快速變化的時代，我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革，不會用大模型的將會被善用大模型的人淘汰。

?機(jī)器視覺 ?AI檢測 ?工業(yè)應(yīng)用
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團(tuán)隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復(fù)
超過ChatGPT、Deepseek？谷歌發(fā)布 Gemini 2.5 Flash AI 模型

新版AI模型縮短了響應(yīng)時間，節(jié)約了運算成本；還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”，據(jù)稱，這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。

?AI模型 ?谷歌 ?Gemini
IQ 過百的 AI 模型名單發(fā)布：ChatGPT、Deepseek等上榜

人工智能IQ哪家強(qiáng)？o3 智商高達(dá) 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

?AI智商 ?ChatGPT ?Deepseek
為編程而生？OpenAI 發(fā)布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是為開發(fā)者量身定制的……

?openai ?gpt-4.1 ?gpt-4.1mini
首次實現(xiàn)圖像思考 OpenAI重磅發(fā)布o(jì)3/o4-mini：史上最強(qiáng)、最智能模型

快科技4月17日消息，今日，OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布，這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解，OpenAI o3/o4-mini首次具備真正的視覺推理能力，看圖識圖已經(jīng)是小菜一碟了，現(xiàn)在還會看圖思考。OpenAI o3/o4-mini能同時處理文本、圖像和音頻，并且能作為Agent智能體自動調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí)，OpenAI訓(xùn)練了o3/o4-mini如何?

?OpenAI ?AI模型 ?視覺推理
易鑫宣布年內(nèi)推出汽車金融行業(yè)首個Agentic大模型

4 月15日，易鑫（02858.HK）在香港舉行的“2 025 世界互聯(lián)網(wǎng)大會亞太峰會”上宣布，將于年內(nèi)推出汽車金融行業(yè)首個Agentic大模型。該模型通過自主決策智能體深度結(jié)合汽車金融場景需求，有望從根本上解決行業(yè)中長期存在的效率瓶頸和痛點。易鑫首席AI科學(xué)家、高級副總裁張磊現(xiàn)場演講易鑫首席AI科學(xué)家、高級副總裁張磊在大會“人工智能大模型論壇”做主題演講時，發(fā)布了這?

?易鑫 ?汽車金融 ?Agentic大模型

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<fieldset id="oim22"></fieldset>