无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > AltDiffusion最新資訊  > 正文

    AltDiffusion:提供多語(yǔ)言文本到圖像的解決方案

    2023-10-13 09:41 · 稿源:站長(zhǎng)之家

    要點(diǎn):

    1. AltDiffusion是一種多語(yǔ)言文本到圖像的擴(kuò)散模型,旨在解決現(xiàn)有文本到圖像模型只支持有限語(yǔ)言的問題,它支持18種不同語(yǔ)言,通過多種訓(xùn)練技巧進(jìn)行訓(xùn)練。

    2. 實(shí)現(xiàn)AltDiffusion的關(guān)鍵步驟包括:增強(qiáng)文本編碼器和UNet的語(yǔ)言能力,進(jìn)行概念對(duì)齊和質(zhì)量提升,以及使用多語(yǔ)言訓(xùn)練數(shù)據(jù)。

    3. AltDiffusion在多語(yǔ)言理解和文化特定概念捕捉方面優(yōu)于現(xiàn)有文本到圖像模型,同時(shí)與其他文本到圖像技術(shù)(如ControlNet和LoRA)兼容,有望推動(dòng)研究和實(shí)際應(yīng)用。

    站長(zhǎng)之家(ChinaZ.com)10月13日 消息:AltDiffusion是一種創(chuàng)新的多語(yǔ)言文本到圖像的擴(kuò)散模型,旨在解決現(xiàn)有文本到圖像模型僅支持有限語(yǔ)言的問題。它支持18種不同語(yǔ)言,通過多種巧妙的訓(xùn)練技巧,如知識(shí)蒸餾和與已經(jīng)預(yù)訓(xùn)練的僅支持英語(yǔ)的模型的結(jié)合,以及概念對(duì)齊和質(zhì)量提升等步驟,實(shí)現(xiàn)了多語(yǔ)言文本到圖像的轉(zhuǎn)化。

    這一模型的目標(biāo)是能夠以多種不同的語(yǔ)言生成具有說服力的圖像,而不僅僅局限于英語(yǔ)。這將使更多的人能夠利用AI圖像生成的力量,擁有更多的語(yǔ)言選擇,拓寬了應(yīng)用范圍。

    image.png

    AltDiffusion采用了多語(yǔ)言CLIP(Multilingual CLIP)來增強(qiáng)文本編碼器的語(yǔ)言能力,通過知識(shí)蒸餾等技巧訓(xùn)練多語(yǔ)言文本編碼器。隨后,將文本編碼器的參數(shù)凍結(jié),并將其放入一個(gè)預(yù)訓(xùn)練的僅支持英語(yǔ)的擴(kuò)散模型中,經(jīng)過概念對(duì)齊和質(zhì)量提升等訓(xùn)練步驟,將其轉(zhuǎn)化為多語(yǔ)言模型。這些步驟旨在在文本和圖像之間建立聯(lián)系,以生成高質(zhì)量的多語(yǔ)言圖像。

    為了訓(xùn)練AltDiffusion,研究人員使用了來自LAION的圖像-文本對(duì)。在訓(xùn)練的第一階段,他們篩選了包括18種語(yǔ)言在內(nèi)的18億數(shù)據(jù),并與英語(yǔ)數(shù)據(jù)結(jié)合。在第二訓(xùn)練階段,他們使用了一個(gè)美學(xué)預(yù)測(cè)器來篩選數(shù)據(jù),以進(jìn)一步提高AltDiffusion模型的多語(yǔ)言能力。

    AltDiffusion的能力得到了MG-18和MC-18兩個(gè)數(shù)據(jù)集的評(píng)估。MG-18用于評(píng)估模型生成圖像的質(zhì)量,而MC-18則用于評(píng)估模型是否能夠捕捉不同語(yǔ)言的文化特定概念。結(jié)果顯示,AltDiffusion在多語(yǔ)言理解和文化特定概念捕捉方面優(yōu)于現(xiàn)有模型。

    image.png

    總之,AltDiffusion是一項(xiàng)重要的技術(shù)突破,提供了多語(yǔ)言文本到圖像的解決方案。它不僅在多語(yǔ)言理解方面表現(xiàn)出色,還與其他文本到圖像技術(shù)兼容,具有廣泛的應(yīng)用前景。這一研究為多語(yǔ)言人工智能領(lǐng)域的進(jìn)一步研究和應(yīng)用提供了有力支持。

    舉報(bào)

    • 相關(guān)推薦
    • Deci AI推出8.2億參數(shù)的文本到圖像潛在擴(kuò)散模型DeciDiffusion 1.0

      DeciAI最近推出了DeciDiffusion1.0,這是一項(xiàng)令人振奮的創(chuàng)新,旨在解決文本到圖像生成領(lǐng)域的挑戰(zhàn)。將文本描述轉(zhuǎn)化為栩栩如生的圖像一直是人工智能領(lǐng)域的難題,因?yàn)檫@涉及到自然語(yǔ)言理解和視覺內(nèi)容創(chuàng)建之間的巨大差距。隨著研究人員繼續(xù)推動(dòng)AI能夠?qū)崿F(xiàn)的界限,我們可以期待進(jìn)一步的突破,使我們更接近一個(gè)世界,其中文本無(wú)縫地轉(zhuǎn)化為引人入勝的圖像,從在各個(gè)行業(yè)和領(lǐng)?

    • 螺旋形狀控制網(wǎng)圖像Illusion Diffusion:Hugging Face空間的創(chuàng)新之光

      一套基于螺旋形狀的控制網(wǎng)圖像在網(wǎng)絡(luò)上引發(fā)了熱潮。這種獨(dú)特的螺旋形狀風(fēng)格成為了網(wǎng)友們關(guān)注的焦點(diǎn)令人驚訝的是,這個(gè)風(fēng)格是由HuggingFace空間創(chuàng)造出來的。HuggingFace空間的這種創(chuàng)新嘗試,不僅展示了其在圖像設(shè)計(jì)和處理方面的強(qiáng)大實(shí)力,也進(jìn)一步推動(dòng)了相關(guān)領(lǐng)域的發(fā)展和創(chuàng)新。

    • 抖音上線地方方言自動(dòng)翻譯功能 由多語(yǔ)言翻譯模型等提供支持

      抖音宣布正式上線地方方言自動(dòng)翻譯功能。創(chuàng)作者可以使用該功能,“一鍵”將多種方言視頻轉(zhuǎn)化出普通話字幕,方便公眾觀看。本次上線的地方方言自動(dòng)識(shí)別及翻譯功能由火山引擎技術(shù)團(tuán)隊(duì)提供技術(shù)支持,采用了自研的自監(jiān)督預(yù)訓(xùn)練模型和多語(yǔ)言翻譯模型,實(shí)現(xiàn)了極少量標(biāo)注數(shù)據(jù)條件下識(shí)別方言的能力,且訓(xùn)練效率提升一倍,有效有效提升了多語(yǔ)言翻譯的性能,同時(shí)大幅降低了模型訓(xùn)練的資源消耗。

    • AI初創(chuàng)公司Captions發(fā)布多語(yǔ)言視頻翻譯應(yīng)用Lipdub

      AI視頻編輯初創(chuàng)公司Captions發(fā)布了一款名為"Lipdub"的新應(yīng)用,用于將視頻片段翻譯成28種語(yǔ)言。該應(yīng)用支持多種語(yǔ)言,包括法語(yǔ)、印地語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)等,甚至可以將視頻翻譯成德克薩斯俚語(yǔ)、Z世代用語(yǔ)、海盜語(yǔ)和嬰兒語(yǔ)。AI配音的初創(chuàng)公司引起了眾多投資者的興趣,像英國(guó)的Papercup和以色列的Deepdub等初創(chuàng)公司已籌集了數(shù)百萬(wàn)美元。

    • 微信iOS版升級(jí),新增多語(yǔ)言翻譯功能

      微信iOS版正式升級(jí)至8.0.42版本,雖然更新日志依舊簡(jiǎn)潔明了,僅提及“解決了一些已知問題”,但此次升級(jí)后,微信新增了多語(yǔ)言翻譯功能,這一改變將為海外旅游、涉外工作等人群帶來便利。在新版微信中,用戶只需點(diǎn)擊“我”-“設(shè)置”-“通用界面”,即可找到新增的翻譯功能。這一功能的加入,無(wú)疑為用戶提供了更多可能性和便利。

    • T2I擴(kuò)散模型PIXART-α:圖像生成質(zhì)量媲美Stable Diffusion

      文本到圖像生成模型如DALLE2、Imagen和StableDiffusion的發(fā)展,開啟了逼真圖像合成的新時(shí)代。這不僅對(duì)圖片編輯、視頻制作、3D素材創(chuàng)建等領(lǐng)域產(chǎn)生了深遠(yuǎn)影響為研究社區(qū)和企業(yè)提供了許多下游應(yīng)用的機(jī)會(huì)??刂乒δ?PIXART-α還提供了控制功能,允許用戶生成定制圖像,精確修改物體顏色等,以滿足特定需求。

    • AI視野:OpenAI開發(fā)者大會(huì)開放申請(qǐng);微軟在開發(fā)AI模型時(shí)泄露了38TB敏感數(shù)據(jù);螺旋控制圖像Illusion Diffusion爆火

      2023年OpenAI開發(fā)者大會(huì)正式開始接受申請(qǐng),計(jì)劃于11月6日在舊金山舉行,涵蓋主題演講、分組會(huì)議和晚間招待會(huì)。參會(huì)者需提交申請(qǐng),門票費(fèi)用為450美元,名額有限。??????AI應(yīng)用ChatVideo:用GPT分析和總結(jié)視頻ChatVideo是基于人工智能的視頻分析和管理工具,利用其獨(dú)特的AI技術(shù),能夠通過語(yǔ)音識(shí)別快速轉(zhuǎn)錄視頻內(nèi)容成文?

    • 騰訊開源StableDiffusion工作流保存插件LightDiffusionFlow

      騰訊宣布開源LightDiffusionFlow,LightDiffusionFlow是一個(gè)開源插件,基于AI繪畫開源平臺(tái)StableDiffusionwebUI開發(fā)來。它可以幫助用戶一鍵保存和復(fù)現(xiàn)SD繪畫工作流,包括模型、提示詞、墊圖和其他第三方插件的參數(shù)設(shè)置。對(duì)于SD初學(xué)者來說,使用Flow文件可以快速上手SD,降低學(xué)習(xí)和使用門檻;對(duì)于SD進(jìn)階者來說,可以保存優(yōu)質(zhì)的工作流并快速?gòu)?fù)用,減少操作成本,并傳播AI繪畫能力;對(duì)于企業(yè)團(tuán)隊(duì)來說,可以建立可復(fù)用的AI繪畫工作流,快速建立團(tuán)隊(duì)的AI繪畫能力,實(shí)現(xiàn)降本增效。

    • 微信iOS 8.0.42正式版發(fā)布 新增多語(yǔ)言翻譯功能

      微信iOS版近日推出了8.0.42正式版更新,新版本中加入了一項(xiàng)實(shí)用的新功能:多語(yǔ)言翻譯。在最新版本的微信中,點(diǎn)擊“我”-“設(shè)置”-“通用”界面,就能看到新增的“翻譯”功能。用戶在微信聊天、朋友圈、網(wǎng)頁(yè)及圖片中使用翻譯功能時(shí),文字會(huì)被翻譯成所選語(yǔ)言。

    • 微信iOS8.0.42正式版更新:新增多語(yǔ)言翻譯、更改部分功能

      微信iOS版本于9月19日發(fā)布了8.0.42正式版更新,盡管官方并未公布具體更新內(nèi)容,但據(jù)IT之家和用戶的測(cè)試,該版本帶來了多項(xiàng)改進(jìn)。在微信聊天、朋友圈、網(wǎng)頁(yè)及圖片中使用翻譯功能時(shí),文字就會(huì)被翻譯為所選語(yǔ)言,支持簡(jiǎn)體中文、繁體中文、英語(yǔ)、韓語(yǔ)、日語(yǔ)等多種語(yǔ)言,用戶可以自行體驗(yàn)。此外,據(jù)用戶@婦產(chǎn)科主任的發(fā)現(xiàn),微信iOS版8.0.42正式版還有以下三項(xiàng)細(xì)節(jié)改進(jìn): 1、長(zhǎng)按翻譯結(jié)果,新增了一個(gè)“更換語(yǔ)言”按鈕; 2、點(diǎn)擊微信-我-錢包,新增了一個(gè)“經(jīng)營(yíng)賬戶”的入口,專為商家推出的收款賬戶; 3、點(diǎn)擊小程序-右上角小人圖標(biāo),新增了“我的評(píng)價(jià)”入口,這里可以看到對(duì)所有小程序的評(píng)價(jià)。