无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > PIXART-δ最新資訊  > 正文

    新文生圖模型PIXART-δ:引入ControlNet,加速文本生成圖像生成

    2024-01-17 14:13 · 稿源:站長之家

    劃重點(diǎn):

    ?? PIXART-δ整合Latent Consistency Models(LCM)和ControlNet,實(shí)現(xiàn)高效實(shí)時(shí)圖像生成。

    ?? 創(chuàng)新ControlNet-Transformer設(shè)計(jì),提升對Transformer模型的控制性能。

    ?? 采用Latent Consistency Distillation(LCD)提高訓(xùn)練效率,支持低內(nèi)存GPU。

    ?? PIXART-δ在推理速度和性能上超越SDXL LCM-LoRA、PIXART-α,成為文本到圖像領(lǐng)域的領(lǐng)先模型。

    站長之家(ChinaZ.com) 1月17日 消息:近年來,文本到圖像生成模型的需求不斷增長,但高質(zhì)量圖像的生成往往面臨資源密集型訓(xùn)練和慢推理的挑戰(zhàn),制約了其實(shí)時(shí)應(yīng)用。本文介紹了PIXART-δ,這是PIXART-α框架的先進(jìn)版本,無縫整合了Latent Consistency Models(LCM)和定制的ControlNet模塊。

    PIXART-α以其高效的訓(xùn)練和優(yōu)越的圖像生成質(zhì)量而聞名,為PIXART-δ提供了堅(jiān)實(shí)的基礎(chǔ)。LCM加速推理過程,僅需在預(yù)訓(xùn)練的Latent Diffusion Models(LDMs)上進(jìn)行2~4步操作即可生成高質(zhì)量樣本。這一改進(jìn)使得PIXART-δ在A100GPU上實(shí)現(xiàn)了每秒0.5秒的驚人推理速度,相比PIXART-α提高了7倍。

    image.png

    在將ControlNet引入PIXART-δ時(shí),由于其原本是為UNet架構(gòu)設(shè)計(jì)的,當(dāng)應(yīng)用于基于Transformer的模型時(shí),提出了一種新穎的ControlNet-Transformer架構(gòu)。該設(shè)計(jì)在Transformer的初始N個(gè)基本塊上選擇性地應(yīng)用ControlNet結(jié)構(gòu),顯著提高了可控性和性能。

    image.png

    訓(xùn)練過程利用了Latent Consistency Distillation(LCD),這是原始Consistency Distillation(CD)算法的改進(jìn)版本。通過算法1中的Classifier-Free Guidance(CFG)的PIXART-δ偽代碼,Teacher、Student和EMA Model(圖1中)充當(dāng)ODE求解器的去噪器。創(chuàng)新的LCD算法通過FID和CLIP分?jǐn)?shù)的評估展示了其有效性。

    PIXART-δ的訓(xùn)練效率是一個(gè)重要亮點(diǎn),成功在32GB GPU內(nèi)存限制下進(jìn)行蒸餾過程,支持高達(dá)1024×1024的圖像分辨率。這種效率使得PIXART-δ能夠在普通消費(fèi)級GPU上進(jìn)行訓(xùn)練,擴(kuò)大了其可訪問性。

    image.png

    在推理速度方面,PIXART-δ在不同硬件平臺上都優(yōu)于類似方法,如SDXL LCM-LoRA、PIXART-α和SDXL標(biāo)準(zhǔn)。僅需四個(gè)步驟,PIXART-δ在生成速度上保持領(lǐng)先地位,相比PIXART-α和SDXL標(biāo)準(zhǔn)所需的14和25步,展現(xiàn)了其高效性。

    image.png

    引入ControlNet到PIXART-δ中涉及將原始零卷積替換為專為Transformer架構(gòu)定制的零線性層。ControlNet-Transformer設(shè)計(jì)在圖4(c)中展示,選擇性地將ControlNet應(yīng)用于初始N個(gè)基本塊,實(shí)現(xiàn)了對可控性和整體性能的無縫整合。

    對ControlNet-Transformer進(jìn)行的割除研究顯示了其卓越性能,展示了在不同場景下更快的收斂速度和改善的性能。復(fù)制塊的數(shù)量(N)發(fā)現(xiàn)對性能產(chǎn)生影響,對于大多數(shù)場景,N =1可以獲得令人滿意的結(jié)果,但在N增加的情況下在具有挑戰(zhàn)性的邊緣條件下性能得到改善。

    分析訓(xùn)練步驟對ControlNet-Transformer(N =13)的影響,團(tuán)隊(duì)觀察到快速收斂,特別是在提高輪廓邊緣質(zhì)量方面,尤其在處理人臉和身體的情況下尤為明顯。ControlNet-Transformer的效率和效果進(jìn)一步強(qiáng)調(diào)了其在實(shí)時(shí)應(yīng)用中的潛力。

    PIXART-δ代表了文本到圖像生成領(lǐng)域的重大進(jìn)展,將Latent Consistency Models的加速采樣與ControlNet-Transformer的精確控制相結(jié)合。廣泛的實(shí)驗(yàn)展示了PIXART-δ更快的采樣速度和ControlNet-Transformer在高分辨率和受控圖像生成方面的有效性。這一模型站在最前沿,為實(shí)時(shí)應(yīng)用開辟了新的可能性。

    PIXART-α核心特色功能可以總結(jié)如下:

    1. **高級圖像處理技術(shù):** PIXART-α采用先進(jìn)的圖像處理算法,能夠?qū)崿F(xiàn)高質(zhì)量、高清晰度的圖像處理,提高圖像的視覺效果。

    2. **實(shí)時(shí)性能:** 該技術(shù)具有快速的實(shí)時(shí)性能,能夠在實(shí)時(shí)應(yīng)用中處理圖像,并在短時(shí)間內(nèi)生成優(yōu)質(zhì)結(jié)果。

    3. **低功耗設(shè)計(jì):** PIXART-α注重能效,采用低功耗設(shè)計(jì),適用于需要長時(shí)間運(yùn)行的設(shè)備,有助于延長電池壽命。

    4. **多場景適應(yīng)性:** 這一技術(shù)具有廣泛的適應(yīng)性,可以在多種場景下應(yīng)用,包括移動設(shè)備、攝像頭、智能家居等領(lǐng)域。

    5. **智能識別功能:** PIXART-α內(nèi)置智能識別功能,能夠識別圖像中的對象、場景等,提高圖像分析的準(zhǔn)確性和效率。

    6. **支持多種圖像格式:** 該技術(shù)支持處理多種圖像格式,使其更具靈活性,能夠適應(yīng)不同的圖像輸入源。

    7. **卓越的噪聲抑制:** PIXART-α集成了卓越的噪聲抑制技術(shù),有效提高圖像質(zhì)量,減少由于噪聲引起的視覺干擾。

    項(xiàng)目網(wǎng)址入口:https://top.aibase.com/tool/pixart-

    論文網(wǎng)址:https://arxiv.org/abs/2401.05252

    github網(wǎng)址:https://github.com/PixArt-alpha/PixArt-alpha

    舉報(bào)

    • 相關(guān)推薦
    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實(shí)拍級”圖像生成

      快科技4月17日消息,據(jù)報(bào)道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中,它能夠精準(zhǔn)高效地處理復(fù)雜問題;在創(chuàng)意寫作等通用任務(wù)方面,同樣表現(xiàn)出色。該模型采用MoE架構(gòu),總參數(shù)為200B,激?

    • UniToken:多模態(tài)AI的“全能選手”,一次編碼搞定文理解與圖像生成

      復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架,首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼,有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問題。通過三階段訓(xùn)練策略(視覺語義對齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)),UniToken在多個(gè)基準(zhǔn)測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在:1)統(tǒng)一的雙邊視覺編碼

    • AI日報(bào):阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B,性能?

    • 挑戰(zhàn)GPT-4o!AI文生圖驚現(xiàn)黑馬,國產(chǎn)團(tuán)隊(duì)HiDream如何逆襲?

      HiDream是一款由國內(nèi)團(tuán)隊(duì)開發(fā)的AI模型,擅長生成復(fù)雜的圖片與多種風(fēng)格的藝術(shù)作品。它在多個(gè)測試中表現(xiàn)出對細(xì)節(jié)、材質(zhì)、光影控制以及創(chuàng)意概念的良好理解,尤其在人物動態(tài)、精細(xì)繪畫等方面效果顯著。HiDream支持輸出4K高清圖片,并兼容多種應(yīng)用領(lǐng)域,包括商業(yè)用途。盡管在某些特定要求下還需提升表現(xiàn),但其潛力和實(shí)際效果已受到關(guān)注。

    • ChatGPT上線庫功能:可管理AI生成圖

      快科技4月16日消息,據(jù)報(bào)道,OpenAI近日宣布將為ChatGPT推出全新的Image Library圖庫功能,該功能將幫助用戶更高效地管理和查看AI生成的圖像。這項(xiàng)創(chuàng)新功能將逐步向所有用戶開放,包括移動端和網(wǎng)頁端的免費(fèi)版、Plus版及Pro版用戶。新功能的設(shè)計(jì)充分考慮了用戶體驗(yàn)的便捷性。用戶只需點(diǎn)擊ChatGPT側(cè)邊欄的Library入口,就能進(jìn)入一個(gè)直觀的圖像網(wǎng)格界面。在這個(gè)界面中,用戶可以輕?

    • 字節(jié)AI加速文生圖技術(shù)新突破,GOOG/微美全息引領(lǐng)開源大模型釋放科技勢能

      字節(jié)跳動發(fā)布豆包1.5深度思考模型,升級文生圖能力。該模型在專業(yè)領(lǐng)域和通用任務(wù)中表現(xiàn)突出,采用MoE架構(gòu),總參數(shù)量200B,激活參數(shù)20B,推理成本優(yōu)勢顯著。同時(shí),其圖像生成模型Seedream 3.0性能追平GPT-4o等頂尖模型。全球AI產(chǎn)業(yè)加速發(fā)展,開源模型降低技術(shù)門檻,推動商業(yè)化落地。微美全息等企業(yè)構(gòu)建開放AI生態(tài),DeepSeek等公司通過開源策略促進(jìn)技術(shù)普惠。行業(yè)迎來"開源AI+"新階段,企業(yè)需把握機(jī)遇應(yīng)對挑戰(zhàn)。

    • AI日報(bào): OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

      【AI日報(bào)】欄目聚焦人工智能領(lǐng)域最新動態(tài):1) OpenAI推出ChatGPT圖像生成API,開發(fā)者可輕松集成AI繪圖功能,已生成超7億張圖片;2) 谷歌Gemini月活用戶突破3.5億,但仍落后于ChatGPT的6億用戶;3) OpenAI預(yù)測2029年收入將達(dá)1250億美元,AI代理業(yè)務(wù)成主要增長點(diǎn);4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview,優(yōu)化ComfyUI工作流;5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything,支持指定區(qū)域生成詳細(xì)描?

    • 阿里開源通義新模型:指定首尾圖片生成視頻

      快科技4月18日消息,據(jù)報(bào)道,阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面,智能生成720p高清過渡視頻,為視頻創(chuàng)作帶來全新可能。該模型通過先進(jìn)的深度學(xué)習(xí)算法,能夠精準(zhǔn)理解輸入畫面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后,模型會智能分析畫面中的視覺元素,包括物體形?

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時(shí),它先畫了狗然后改為貓,但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • GPT4o生成的爛自拍,反而比我們更真實(shí)。

      文章探討了GPT-4o通過簡單Prompt生成的"不完美"照片引發(fā)熱潮的現(xiàn)象。這些刻意追求平凡、模糊、構(gòu)圖混亂的照片,反而因其"不完美"帶來了前所未有的真實(shí)感。作者指出,在社交媒體充斥精修照片的時(shí)代,這種未經(jīng)修飾的"生活切片"恰恰捕捉了人類最熟悉的真實(shí)瞬間。通過分析911事件經(jīng)典照片《墜落的人》,文章進(jìn)一步論證了真實(shí)往往存在于未經(jīng)表演的偶?