无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

AltDiffusion：提供多語(yǔ)言文本到圖像的解決方案

2023-10-13 09:41 · 稿源：站長(zhǎng)之家

要點(diǎn):
1. AltDiffusion是一種多語(yǔ)言文本到圖像的擴(kuò)散模型，旨在解決現(xiàn)有文本到圖像模型只支持有限語(yǔ)言的問題，它支持18種不同語(yǔ)言，通過多種訓(xùn)練技巧進(jìn)行訓(xùn)練。
2. 實(shí)現(xiàn)AltDiffusion的關(guān)鍵步驟包括:增強(qiáng)文本編碼器和UNet的語(yǔ)言能力，進(jìn)行概念對(duì)齊和質(zhì)量提升，以及使用多語(yǔ)言訓(xùn)練數(shù)據(jù)。
3. AltDiffusion在多語(yǔ)言理解和文化特定概念捕捉方面優(yōu)于現(xiàn)有文本到圖像模型，同時(shí)與其他文本到圖像技術(shù)（如ControlNet和LoRA）兼容，有望推動(dòng)研究和實(shí)際應(yīng)用。

站長(zhǎng)之家（ChinaZ.com）10月13日消息:AltDiffusion是一種創(chuàng)新的多語(yǔ)言文本到圖像的擴(kuò)散模型，旨在解決現(xiàn)有文本到圖像模型僅支持有限語(yǔ)言的問題。它支持18種不同語(yǔ)言，通過多種巧妙的訓(xùn)練技巧，如知識(shí)蒸餾和與已經(jīng)預(yù)訓(xùn)練的僅支持英語(yǔ)的模型的結(jié)合，以及概念對(duì)齊和質(zhì)量提升等步驟，實(shí)現(xiàn)了多語(yǔ)言文本到圖像的轉(zhuǎn)化。

這一模型的目標(biāo)是能夠以多種不同的語(yǔ)言生成具有說服力的圖像，而不僅僅局限于英語(yǔ)。這將使更多的人能夠利用AI圖像生成的力量，擁有更多的語(yǔ)言選擇，拓寬了應(yīng)用范圍。

AltDiffusion采用了多語(yǔ)言CLIP（Multilingual CLIP）來增強(qiáng)文本編碼器的語(yǔ)言能力，通過知識(shí)蒸餾等技巧訓(xùn)練多語(yǔ)言文本編碼器。隨后，將文本編碼器的參數(shù)凍結(jié)，并將其放入一個(gè)預(yù)訓(xùn)練的僅支持英語(yǔ)的擴(kuò)散模型中，經(jīng)過概念對(duì)齊和質(zhì)量提升等訓(xùn)練步驟，將其轉(zhuǎn)化為多語(yǔ)言模型。這些步驟旨在在文本和圖像之間建立聯(lián)系，以生成高質(zhì)量的多語(yǔ)言圖像。

為了訓(xùn)練AltDiffusion，研究人員使用了來自LAION的圖像-文本對(duì)。在訓(xùn)練的第一階段，他們篩選了包括18種語(yǔ)言在內(nèi)的18億數(shù)據(jù)，并與英語(yǔ)數(shù)據(jù)結(jié)合。在第二訓(xùn)練階段，他們使用了一個(gè)美學(xué)預(yù)測(cè)器來篩選數(shù)據(jù)，以進(jìn)一步提高AltDiffusion模型的多語(yǔ)言能力。

AltDiffusion的能力得到了MG-18和MC-18兩個(gè)數(shù)據(jù)集的評(píng)估。MG-18用于評(píng)估模型生成圖像的質(zhì)量，而MC-18則用于評(píng)估模型是否能夠捕捉不同語(yǔ)言的文化特定概念。結(jié)果顯示，AltDiffusion在多語(yǔ)言理解和文化特定概念捕捉方面優(yōu)于現(xiàn)有模型。

總之，AltDiffusion是一項(xiàng)重要的技術(shù)突破，提供了多語(yǔ)言文本到圖像的解決方案。它不僅在多語(yǔ)言理解方面表現(xiàn)出色，還與其他文本到圖像技術(shù)兼容，具有廣泛的應(yīng)用前景。這一研究為多語(yǔ)言人工智能領(lǐng)域的進(jìn)一步研究和應(yīng)用提供了有力支持。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

Deci AI推出8.2億參數(shù)的文本到圖像潛在擴(kuò)散模型DeciDiffusion 1.0

DeciAI最近推出了DeciDiffusion1.0，這是一項(xiàng)令人振奮的創(chuàng)新，旨在解決文本到圖像生成領(lǐng)域的挑戰(zhàn)。將文本描述轉(zhuǎn)化為栩栩如生的圖像一直是人工智能領(lǐng)域的難題，因?yàn)檫@涉及到自然語(yǔ)言理解和視覺內(nèi)容創(chuàng)建之間的巨大差距。隨著研究人員繼續(xù)推動(dòng)AI能夠?qū)崿F(xiàn)的界限，我們可以期待進(jìn)一步的突破，使我們更接近一個(gè)世界，其中文本無(wú)縫地轉(zhuǎn)化為引人入勝的圖像，從在各個(gè)行業(yè)和領(lǐng)?

?DeciDiffusion ?AI頭條
螺旋形狀控制網(wǎng)圖像Illusion Diffusion：Hugging Face空間的創(chuàng)新之光

一套基于螺旋形狀的控制網(wǎng)圖像在網(wǎng)絡(luò)上引發(fā)了熱潮。這種獨(dú)特的螺旋形狀風(fēng)格成為了網(wǎng)友們關(guān)注的焦點(diǎn)令人驚訝的是，這個(gè)風(fēng)格是由HuggingFace空間創(chuàng)造出來的。HuggingFace空間的這種創(chuàng)新嘗試，不僅展示了其在圖像設(shè)計(jì)和處理方面的強(qiáng)大實(shí)力，也進(jìn)一步推動(dòng)了相關(guān)領(lǐng)域的發(fā)展和創(chuàng)新。

?IllusionDiffusion
抖音上線地方方言自動(dòng)翻譯功能由多語(yǔ)言翻譯模型等提供支持

抖音宣布正式上線地方方言自動(dòng)翻譯功能。創(chuàng)作者可以使用該功能，“一鍵”將多種方言視頻轉(zhuǎn)化出普通話字幕，方便公眾觀看。本次上線的地方方言自動(dòng)識(shí)別及翻譯功能由火山引擎技術(shù)團(tuán)隊(duì)提供技術(shù)支持，采用了自研的自監(jiān)督預(yù)訓(xùn)練模型和多語(yǔ)言翻譯模型，實(shí)現(xiàn)了極少量標(biāo)注數(shù)據(jù)條件下識(shí)別方言的能力，且訓(xùn)練效率提升一倍，有效有效提升了多語(yǔ)言翻譯的性能，同時(shí)大幅降低了模型訓(xùn)練的資源消耗。
AI初創(chuàng)公司Captions發(fā)布多語(yǔ)言視頻翻譯應(yīng)用Lipdub

AI視頻編輯初創(chuàng)公司Captions發(fā)布了一款名為"Lipdub"的新應(yīng)用，用于將視頻片段翻譯成28種語(yǔ)言。該應(yīng)用支持多種語(yǔ)言，包括法語(yǔ)、印地語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)等，甚至可以將視頻翻譯成德克薩斯俚語(yǔ)、Z世代用語(yǔ)、海盜語(yǔ)和嬰兒語(yǔ)。AI配音的初創(chuàng)公司引起了眾多投資者的興趣，像英國(guó)的Papercup和以色列的Deepdub等初創(chuàng)公司已籌集了數(shù)百萬(wàn)美元。

?Lipdub ?視頻翻譯
微信iOS版升級(jí)，新增多語(yǔ)言翻譯功能

微信iOS版正式升級(jí)至8.0.42版本，雖然更新日志依舊簡(jiǎn)潔明了，僅提及“解決了一些已知問題”，但此次升級(jí)后，微信新增了多語(yǔ)言翻譯功能，這一改變將為海外旅游、涉外工作等人群帶來便利。在新版微信中，用戶只需點(diǎn)擊“我”-“設(shè)置”-“通用界面”，即可找到新增的翻譯功能。這一功能的加入，無(wú)疑為用戶提供了更多可能性和便利。
T2I擴(kuò)散模型PIXART-α：圖像生成質(zhì)量媲美Stable Diffusion

文本到圖像生成模型如DALLE2、Imagen和StableDiffusion的發(fā)展，開啟了逼真圖像合成的新時(shí)代。這不僅對(duì)圖片編輯、視頻制作、3D素材創(chuàng)建等領(lǐng)域產(chǎn)生了深遠(yuǎn)影響為研究社區(qū)和企業(yè)提供了許多下游應(yīng)用的機(jī)會(huì)?？刂乒δ?PIXART-α還提供了控制功能，允許用戶生成定制圖像，精確修改物體顏色等，以滿足特定需求。

?PIXART-α ?擴(kuò)散模型 ?AI頭條
薦AI視野：OpenAI開發(fā)者大會(huì)開放申請(qǐng)；微軟在開發(fā)AI模型時(shí)泄露了38TB敏感數(shù)據(jù)；螺旋控制圖像Illusion Diffusion爆火

2023年OpenAI開發(fā)者大會(huì)正式開始接受申請(qǐng)，計(jì)劃于11月6日在舊金山舉行，涵蓋主題演講、分組會(huì)議和晚間招待會(huì)。參會(huì)者需提交申請(qǐng)，門票費(fèi)用為450美元，名額有限。??????AI應(yīng)用ChatVideo:用GPT分析和總結(jié)視頻ChatVideo是基于人工智能的視頻分析和管理工具，利用其獨(dú)特的AI技術(shù)，能夠通過語(yǔ)音識(shí)別快速轉(zhuǎn)錄視頻內(nèi)容成文?

?OpenAI
騰訊開源StableDiffusion工作流保存插件LightDiffusionFlow

騰訊宣布開源LightDiffusionFlow，LightDiffusionFlow是一個(gè)開源插件，基于AI繪畫開源平臺(tái)StableDiffusionwebUI開發(fā)來。它可以幫助用戶一鍵保存和復(fù)現(xiàn)SD繪畫工作流，包括模型、提示詞、墊圖和其他第三方插件的參數(shù)設(shè)置。對(duì)于SD初學(xué)者來說，使用Flow文件可以快速上手SD，降低學(xué)習(xí)和使用門檻;對(duì)于SD進(jìn)階者來說，可以保存優(yōu)質(zhì)的工作流并快速?gòu)?fù)用，減少操作成本，并傳播AI繪畫能力;對(duì)于企業(yè)團(tuán)隊(duì)來說，可以建立可復(fù)用的AI繪畫工作流，快速建立團(tuán)隊(duì)的AI繪畫能力，實(shí)現(xiàn)降本增效。
微信iOS 8.0.42正式版發(fā)布新增多語(yǔ)言翻譯功能

微信iOS版近日推出了8.0.42正式版更新，新版本中加入了一項(xiàng)實(shí)用的新功能:多語(yǔ)言翻譯。在最新版本的微信中，點(diǎn)擊“我”-“設(shè)置”-“通用”界面，就能看到新增的“翻譯”功能。用戶在微信聊天、朋友圈、網(wǎng)頁(yè)及圖片中使用翻譯功能時(shí)，文字會(huì)被翻譯成所選語(yǔ)言。
微信iOS8.0.42正式版更新：新增多語(yǔ)言翻譯、更改部分功能

微信iOS版本于9月19日發(fā)布了8.0.42正式版更新，盡管官方并未公布具體更新內(nèi)容，但據(jù)IT之家和用戶的測(cè)試，該版本帶來了多項(xiàng)改進(jìn)。在微信聊天、朋友圈、網(wǎng)頁(yè)及圖片中使用翻譯功能時(shí)，文字就會(huì)被翻譯為所選語(yǔ)言，支持簡(jiǎn)體中文、繁體中文、英語(yǔ)、韓語(yǔ)、日語(yǔ)等多種語(yǔ)言，用戶可以自行體驗(yàn)。此外，據(jù)用戶@婦產(chǎn)科主任的發(fā)現(xiàn)，微信iOS版8.0.42正式版還有以下三項(xiàng)細(xì)節(jié)改進(jìn)： 1、長(zhǎng)按翻譯結(jié)果，新增了一個(gè)“更換語(yǔ)言”按鈕； 2、點(diǎn)擊微信-我-錢包，新增了一個(gè)“經(jīng)營(yíng)賬戶”的入口，專為商家推出的收款賬戶； 3、點(diǎn)擊小程序-右上角小人圖標(biāo)，新增了“我的評(píng)價(jià)”入口，這里可以看到對(duì)所有小程序的評(píng)價(jià)。

熱文

3 天
7天

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM