无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 語言模型最新資訊  > 正文

    谷歌、CMU研究表明:語言模型通過使用良好的視覺tokenizer擊敗了擴(kuò)散模型

    2023-10-11 14:38 · 稿源:站長之家

    要點:

    1. 研究表明,在圖像和視頻生成領(lǐng)域,語言模型通過使用良好的視覺 tokenizer 首次擊敗了擴(kuò)散模型,強(qiáng)調(diào)了 tokenizer 的重要性。

    2. 傳統(tǒng)大型語言模型(LLM)在圖像生成方面一直落后于擴(kuò)散模型,主要原因是缺乏有效的視覺表示。

    3. 新研究引入了名為MAGVIT-v2的視頻 tokenizer,采用無查找量化和增強(qiáng)功能的設(shè)計,取得了在圖像和視頻生成、視頻壓縮以及動作識別領(lǐng)域的顯著性能提升。

    站長之家(ChinaZ.com)10月11日 消息:來自谷歌、CMU 的研究發(fā)現(xiàn),語言模型在圖像、視頻生成領(lǐng)域的性能一直不如擴(kuò)散模型,主要原因是缺乏有效的視覺表示。

    然而,通過引入一種名為MAGVIT-v2的視頻 tokenizer,采用無查找量化和增強(qiáng)功能的設(shè)計,研究者成功改進(jìn)了圖像和視頻生成的質(zhì)量,超越了現(xiàn)有技術(shù)。

    image.png

    論文地址:https://arxiv.org/pdf/2310.05737.pdf

    實驗證實,良好的視覺 tokenizer 在使語言模型生成高質(zhì)量圖像和視頻方面具有關(guān)鍵作用。

    這一研究的重要性在于它為語言模型的多模態(tài)應(yīng)用提供了新的思路,通過將視覺和語言統(tǒng)一在相同的 token 空間中,可以提高多模態(tài)語言模型的性能,加快視頻應(yīng)用的處理速度,并提高視頻壓縮質(zhì)量。

    此外,新的 token 也提供了更好的視覺理解,增強(qiáng)了模型的魯棒性和泛化性。通過這一研究,我們可以看到語言模型在視覺生成領(lǐng)域的潛力,以及如何通過創(chuàng)新的設(shè)計和改進(jìn)來實現(xiàn)更好的性能。

    舉報

    • 相關(guān)推薦

    熱文

    • 3 天
    • 7天