11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵?lái)騰訊云選購(gòu)吧!
自回歸文生圖,迎來(lái)新王者——新開源模型Infinity,字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)出品,超越DiffusionModel。值得一提的是,這其實(shí)是從前段時(shí)間斬獲NeurIPS最佳論文VAR衍生來(lái)的文生圖版本。Infinity2B和20B的模型都已經(jīng)開放了網(wǎng)站體驗(yàn),感興趣的同學(xué)可以試一試效果。
OpenAI發(fā)布了全新擴(kuò)散模型方法sCM,僅需2步就能生成高質(zhì)量圖片、3D模型等實(shí)現(xiàn)50倍時(shí)鐘加速,尤其是在高分辨率任務(wù)上相當(dāng)出色。通過(guò)sCM訓(xùn)練了一個(gè)15億參數(shù)的模型,在單個(gè)A100GPU上無(wú)需任何推理優(yōu)化0.11秒內(nèi)就能生成內(nèi)容。把這個(gè)技術(shù)用在Sora,應(yīng)該就快來(lái)了吧?目前,OpenAI已經(jīng)分享了該論文方法,是由兩位華人提出來(lái)的。
在CVPR2024上,美國(guó)英特爾研究院的蔡志鵬博士及其團(tuán)隊(duì)提出了一種名為L(zhǎng)-MAGIC的新技術(shù)。這項(xiàng)技術(shù)通過(guò)結(jié)合語(yǔ)言模型和圖像擴(kuò)散模型,實(shí)現(xiàn)了高質(zhì)量、多模態(tài)、零樣本泛化的360度場(chǎng)景生成。技術(shù)應(yīng)用:L-MAGIC還能夠利用深度估計(jì)模型生成場(chǎng)景的沉浸式視頻和三維點(diǎn)云,為場(chǎng)景理解和可視化提供了更多可能性。
NVIDIA近期提出了一種名為自動(dòng)引導(dǎo)的新方法,旨在改善擴(kuò)散模型中圖像的質(zhì)量和變化不影響其與給定條件的一致性。當(dāng)前的方法通常會(huì)以犧牲多樣性為代價(jià)來(lái)提高圖像質(zhì)量,從限制了它們?cè)卺t(yī)學(xué)診斷和自動(dòng)駕駛等各種現(xiàn)實(shí)場(chǎng)景中的適用性。這種創(chuàng)新方法在基準(zhǔn)測(cè)試中取得了最先進(jìn)的成績(jī),顯著推進(jìn)了人工智能研究領(lǐng)域,為生成高質(zhì)量和多樣化圖像提供了更高效、更有效的解決方案。
SLD 是一個(gè)自糾正的LLM控制的擴(kuò)散模型框架,它通過(guò)集成檢測(cè)器增強(qiáng)生成模型,以實(shí)現(xiàn)精確的文本到圖像對(duì)齊。SLD框架支持圖像生成和精細(xì)編輯,并且與任何圖像生成器兼容,如DALL-E 3,無(wú)需額外訓(xùn)練或數(shù)據(jù)。點(diǎn)擊前往SLD官網(wǎng)體驗(yàn)入口需求人群:適用于需要精確文本到圖像對(duì)齊的研究者和開發(fā)者,以及希望進(jìn)行圖像生成和編輯的用戶。使用場(chǎng)景示例:使用SLD框架根據(jù)文本提示生?
擴(kuò)散模型中,UNet的longskipconnection上的scaling操作被證實(shí)能夠穩(wěn)定模型訓(xùn)練。在一些流行的擴(kuò)散模型中,如Imagen和Score-basedgenerativemodel中,已經(jīng)觀察到設(shè)置scaling系數(shù)可以有效加速模型的訓(xùn)練過(guò)程。最近的一些后續(xù)工作也進(jìn)一步驗(yàn)證了skipconnection上scaling的重要性,為這一領(lǐng)域的發(fā)展提供了新的思路和方向。
針對(duì)文本到圖像生成模型領(lǐng)域中的個(gè)性化主題驅(qū)動(dòng)模型,出現(xiàn)了一些令人印象深刻的進(jìn)展,如DreamBooth和BLIP-Diffusion。這些模型普遍存在著對(duì)微調(diào)的需求較高和參數(shù)規(guī)模龐大的限制。綜合對(duì)比實(shí)驗(yàn)結(jié)果,DiffuseKronA在視覺質(zhì)量、文本對(duì)齊性、可解釋性、參數(shù)效率和模型穩(wěn)定性等方面均優(yōu)于LoRA-DreamBooth,為T2I生成模型的領(lǐng)域帶來(lái)了重大進(jìn)展。
音樂生成技術(shù)一直是一個(gè)迷人的領(lǐng)域,將創(chuàng)造力與技術(shù)相結(jié)合,產(chǎn)生與人類情感共鳴的作品。這個(gè)過(guò)程涉及生成與通過(guò)文本描述傳達(dá)的特定主題或情感相符的音樂。盡管在處理長(zhǎng)序列方面存在一些局限性,并且受限于16kHz的采樣率,但MusicMagus在風(fēng)格和音色轉(zhuǎn)移方面取得了顯著進(jìn)展,展示了其創(chuàng)新的音樂編輯方法。
新加坡國(guó)立大學(xué)尤洋教授團(tuán)隊(duì)聯(lián)合其他機(jī)構(gòu)開發(fā)的p-diff擴(kuò)散模型在AI領(lǐng)域引起熱議。這項(xiàng)模型能以44倍的速度生成神經(jīng)網(wǎng)絡(luò)參數(shù),得到了深度學(xué)習(xí)領(lǐng)域的重要人物L(fēng)eCun的點(diǎn)贊。其高效、準(zhǔn)確且具有泛化能力的特點(diǎn)將為未來(lái)的AI應(yīng)用提供更多可能性,同時(shí)也促進(jìn)了AI領(lǐng)域知識(shí)的共享與交流。
為了使機(jī)器具有人類的想象力,深度生成模型取得了重大進(jìn)展。這些模型能創(chuàng)造逼真的樣本,尤其是擴(kuò)散模型,在多個(gè)領(lǐng)域表現(xiàn)出色。通過(guò)整合額外的反饋,豐富了強(qiáng)化學(xué)習(xí),從改善了模型的可控條件生成能力。