无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<menuitem id="sk1km"><ins id="sk1km"></ins></menuitem>

<menuitem id="sk1km"></menuitem>

<nav id="sk1km"></nav>

<sup id="sk1km"><rt id="sk1km"></rt></sup><rp id="sk1km"></rp>

Google AI 推出 MediaPipe Diffusion 插件：可在設(shè)備上實(shí)現(xiàn)可控的文本到圖像生成

2023-07-03 16:12 · 稿源：站長(zhǎng)之家

站長(zhǎng)之家(ChinaZ.com) 7月3日消息:Diffusion 模型近年來(lái)在文本到圖像生成方面得到廣泛應(yīng)用，并取得了顯著的成功，從而在圖像質(zhì)量、推理性能和創(chuàng)造性范圍方面實(shí)現(xiàn)了重大改進(jìn)。然而，在難以用文字明確定義的條件下，有效的生成管理仍然是一個(gè)挑戰(zhàn)。

谷歌，google

由谷歌研究人員開(kāi)發(fā)的 MediaPipe Diffusion 插件使得用戶可以在設(shè)備上執(zhí)行文本到圖像的生成，并進(jìn)行用戶控制。在這項(xiàng)研究中，谷歌延伸了之前關(guān)于設(shè)備上大型生成模型的 GPU 推理的工作，提出了低成本的可編程文本到圖像創(chuàng)建解決方案，可以集成到現(xiàn)有的 Diffusion 模型及其 LoRA 變體中。

Diffusion 模型中模擬了迭代去噪的圖像生成過(guò)程。Diffusion 模型的每一次迭代都以受噪聲污染的圖像開(kāi)始，并以目標(biāo)概念的圖像結(jié)束。通過(guò)文本提示的語(yǔ)言理解極大地增強(qiáng)了圖像生成過(guò)程。文本嵌入通過(guò)交叉注意力層與文本到圖像生成模型關(guān)聯(lián)起來(lái)。然而，物體的位置和姿態(tài)等細(xì)節(jié)可能更難以通過(guò)文本提示傳達(dá)。研究人員通過(guò)額外的模型將條件圖像中的控制信息引入到 Diffusion 中。

Plug-and-Play、ControlNet 和 T2I Adapter 方法經(jīng)常用于生成受控的文本到圖像輸出。Plug-and-Play 使用 Diffusion 模型的副本（Stable Diffusion1.5 版本的 860M 參數(shù)）和廣泛使用的去噪 Diffusion 隱式模型（DDIM）反演方法來(lái)從輸入圖像中推導(dǎo)出初始噪聲輸入。

通過(guò)自注意力從復(fù)制的 Diffusion 中提取空間特征，并使用 Plug-and-Play 將其注入到文本到圖像 Diffusion 中。ControlNet 構(gòu)建了 Diffusion 模型編碼器的可訓(xùn)練副本，并通過(guò)一個(gè)帶有零初始化參數(shù)的卷積層連接到編碼條件信息，然后傳遞給解碼器層。不幸的是，這導(dǎo)致了模型的顯著增大，Stable Diffusion1.5 版本的參數(shù)約為 4.5 億個(gè)，相當(dāng)于 Diffusion 模型本身的一半。T2I Adapter 在較小的網(wǎng)絡(luò)（77M 參數(shù)）下實(shí)現(xiàn)了可比較的受控生成結(jié)果。條件圖像是 T2I Adapter 的唯一輸入，其結(jié)果被用于所有后續(xù)的 Diffusion 周期。然而，這種適配器樣式不適用于移動(dòng)設(shè)備。

MediaPipe Diffusion 插件是谷歌開(kāi)發(fā)的一個(gè)獨(dú)立網(wǎng)絡(luò)，旨在使條件生成變得高效、靈活和可擴(kuò)展。

作為一種便攜式的設(shè)備上文本到圖像創(chuàng)建范式，MediaPipe Diffusion 插件可以免費(fèi)下載使用。它接收一個(gè)條件圖像，并通過(guò)多尺度特征提取將特征添加到 Diffusion 模型的編碼器中的適當(dāng)尺度上。

當(dāng)與文本到圖像 Diffusion 模型結(jié)合使用時(shí)，插件模型將一個(gè)條件信號(hào)添加到圖像生成過(guò)程中。谷歌希望插件網(wǎng)絡(luò)只有 600 萬(wàn)個(gè)參數(shù)，使其成為一個(gè)相對(duì)簡(jiǎn)單的模型。

MediaPipe：https://developers.google.com/mediapipe

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

AI日?qǐng)?bào)： OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬(wàn)能工具箱;中國(guó)占全球AI專(zhuān)利60%

【AI日?qǐng)?bào)】欄目聚焦人工智能領(lǐng)域最新動(dòng)態(tài)：1) OpenAI推出ChatGPT圖像生成API，開(kāi)發(fā)者可輕松集成AI繪圖功能，已生成超7億張圖片；2) 谷歌Gemini月活用戶突破3.5億，但仍落后于ChatGPT的6億用戶；3) OpenAI預(yù)測(cè)2029年收入將達(dá)1250億美元，AI代理業(yè)務(wù)成主要增長(zhǎng)點(diǎn)；4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview，優(yōu)化ComfyUI工作流；5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything，支持指定區(qū)域生成詳細(xì)描?

?OpenAI ?ChatGPT ?圖像生成
薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

復(fù)旦大學(xué)與美團(tuán)研究者提出UniToken框架，首次在統(tǒng)一模型中實(shí)現(xiàn)圖文理解與生成任務(wù)的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺(jué)編碼，有效解決了傳統(tǒng)多模態(tài)建模中的"任務(wù)干擾"和"表示割裂"問(wèn)題。通過(guò)三階段訓(xùn)練策略（視覺(jué)語(yǔ)義對(duì)齊、多任務(wù)聯(lián)合訓(xùn)練、指令強(qiáng)化微調(diào)），UniToken在多個(gè)基準(zhǔn)測(cè)試中性能超越專(zhuān)用模型。其創(chuàng)新性體現(xiàn)在：1）統(tǒng)一的雙邊視覺(jué)編碼

?UniToken ?多模態(tài)建模 ?視覺(jué)編碼
字節(jié)發(fā)布豆包1.5深度思考模型：“實(shí)拍級(jí)”圖像生成

快科技4月17日消息，據(jù)報(bào)道，今日，在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場(chǎng)，字節(jié)跳動(dòng)旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出，豆包1.5深度思考模型在多個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類(lèi)專(zhuān)業(yè)領(lǐng)域中，它能夠精準(zhǔn)高效地處理復(fù)雜問(wèn)題；在創(chuàng)意寫(xiě)作等通用任務(wù)方面，同樣表現(xiàn)出色。該模型采用MoE架構(gòu)，總參數(shù)為200B，激?

?豆包1.5深度思考模型 ?火山引擎AI創(chuàng)新 ?字節(jié)跳動(dòng)技術(shù)發(fā)布
薦OpenAI，Google和阿里們都“認(rèn)”了的MCP，究竟給開(kāi)發(fā)者帶來(lái)啥實(shí)惠了

AI領(lǐng)域的互操作性標(biāo)準(zhǔn)之爭(zhēng)正變得異常熱鬧。GoogleDeepMindCEODemisHassabis宣布，將為其Gemini模型添加對(duì)Anthropic主導(dǎo)的模型上下文協(xié)議MCP的支持，稱(chēng)其為“一個(gè)優(yōu)秀的協(xié)議，正迅速成為AIAgent時(shí)代的開(kāi)放標(biāo)準(zhǔn)”。MCP有潛力成為提升AI在具體業(yè)務(wù)場(chǎng)景中實(shí)用性的關(guān)鍵基礎(chǔ)設(shè)施，促進(jìn)AI與現(xiàn)有軟件和工作流程更緊密的融合。

?AI互操作性 ?Gemini模型 ?MCP協(xié)議
薦AI日?qǐng)?bào)：ChatGPT重磅上線圖像庫(kù)功能；白嫖！Veo2登陸谷歌AI Studio；螞蟻百寶箱推“MCP專(zhuān)區(qū)”

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、報(bào)道稱(chēng)字節(jié)跳動(dòng)整合 AI 研發(fā)團(tuán)隊(duì)，AI Lab 即將并入 Seed字節(jié)跳動(dòng)正在進(jìn)行AI研發(fā)團(tuán)隊(duì)的整合，將獨(dú)立的字節(jié)AI Lab并入Seed團(tuán)隊(duì)。這一舉措體現(xiàn)了字節(jié)在AI領(lǐng)域戰(zhàn)略布局的調(diào)整，旨在進(jìn)?

?字節(jié)跳動(dòng) ?AI研發(fā) ?AI
薦AI日?qǐng)?bào)：Kimi全新音頻基礎(chǔ)模型Kimi-Audio；階躍星辰開(kāi)源圖像編輯模型Step1X-Edit；?夸克AI超級(jí)框上線 “拍照問(wèn)夸克”

本期AI日?qǐng)?bào)聚焦多項(xiàng)AI技術(shù)突破與應(yīng)用：1)Moonshot AI推出開(kāi)源音頻模型Kimi-Audio，基于13億小時(shí)訓(xùn)練數(shù)據(jù)，支持語(yǔ)音識(shí)別等任務(wù)；2)階躍星辰開(kāi)源圖像編輯模型Step1X-Edit，展現(xiàn)強(qiáng)大生成能力；3)夸克AI上線"拍照問(wèn)夸克"功能，實(shí)現(xiàn)視覺(jué)問(wèn)答；4)蘋(píng)果iOS18.5將在中國(guó)推送，帶來(lái)智能功能；5)谷歌發(fā)布601個(gè)生成式AI應(yīng)用案例，覆蓋多行業(yè)；6)微軟推出深度整合Windows的UFO2自動(dòng)化系統(tǒng)；7)OpenAI升級(jí)ChatGPT至GPT-4o版本，提升STEM領(lǐng)域能力；8)Ema公司推出高性價(jià)比語(yǔ)言模型EmaFusion；9)Liquid AI發(fā)布面向邊緣設(shè)備的Hyena Edge模型；10)LemonAI推出實(shí)時(shí)音視頻數(shù)字人產(chǎn)品Slice Live。此外，國(guó)內(nèi)方面，智譜與生數(shù)科技達(dá)成戰(zhàn)略合作推動(dòng)大模型發(fā)展，寶馬中國(guó)宣布新車(chē)將接入DeepSeek技術(shù)。

?AI日?qǐng)?bào) ?音頻技術(shù) ?開(kāi)源模型
谷歌CEO皮查伊：反壟斷提案可能毀滅Google搜索！

快科技5月1日消息，谷歌CEO桑達(dá)爾皮查伊（Sundar Pichai）在美國(guó)司法部（DOJ）針對(duì)谷歌反壟斷案的證詞中，強(qiáng)烈反對(duì)政府提出的修正措施。皮查伊表示，這些措施將對(duì)谷歌搜索造成毀滅性影響”，并可能阻礙公司在搜索引擎領(lǐng)域的持續(xù)創(chuàng)新。在法庭上，皮查伊指出，美國(guó)司法部要求谷歌與競(jìng)爭(zhēng)對(duì)手分享搜索數(shù)據(jù)的提議，將使谷歌難以繼續(xù)開(kāi)發(fā)其搜索引擎，甚至可能導(dǎo)致公司無(wú)法再進(jìn)行創(chuàng)新投資。他強(qiáng)調(diào)，谷歌在搜索和人工智能（AI）等領(lǐng)域的研發(fā)投入巨大，僅去年就達(dá)到了490億美元。他還警告稱(chēng)，數(shù)據(jù)共享提議將使競(jìng)爭(zhēng)對(duì)手能夠完全逆向工程我們的技術(shù)”

?谷歌反壟斷 ?搜索引擎創(chuàng)新 ?數(shù)據(jù)共享影響
蘋(píng)果Vision Air曝光：采用鈦金屬設(shè)備更輕

快科技4月17日消息，當(dāng)前Vision Pro 256G版本售價(jià)為29999元起，設(shè)備重量為600克至650克，根據(jù)遮光罩和頭帶配置不同可能有所差異，其單獨(dú)的電池重量為353克，不少線下體驗(yàn)者表示，該頭顯的重量影響其體驗(yàn)舒適度。蘋(píng)果也意識(shí)到了這個(gè)問(wèn)題，其下一代頭顯的研發(fā)重點(diǎn)是減重”，有博主在社交平臺(tái)上爆料稱(chēng)，蘋(píng)果正在研發(fā)全新頭顯Vision Air，其特點(diǎn)是采用輕量化設(shè)計(jì)，同時(shí)帶來(lái)午夜?

?蘋(píng)果 ?Vision ?Pro
華揚(yáng)聯(lián)眾與MediaPlus達(dá)成戰(zhàn)略合作：開(kāi)啟中歐品牌文明對(duì)話新范式

華揚(yáng)聯(lián)眾與歐洲領(lǐng)先獨(dú)立媒體代理公司MediaPlus達(dá)成戰(zhàn)略合作，雙方將以數(shù)字技術(shù)為橋梁、文化共識(shí)為紐帶，共同推動(dòng)中歐市場(chǎng)雙向商業(yè)資源對(duì)接。合作重點(diǎn)包括：1）通過(guò)數(shù)字營(yíng)銷(xiāo)實(shí)現(xiàn)文化價(jià)值的雙向轉(zhuǎn)化，構(gòu)建跨文化消費(fèi)共鳴；2）激活億萬(wàn)級(jí)市場(chǎng)潛力，借助社交媒體向歐洲立體展現(xiàn)中國(guó)消費(fèi)文化；3）突破傳統(tǒng)代理模式，共建全球化營(yíng)銷(xiāo)新生態(tài)。此次合作將建立跨文化消費(fèi)者洞察數(shù)據(jù)庫(kù)，培育具有全球視野的商業(yè)人才。華揚(yáng)聯(lián)眾在全球多國(guó)設(shè)有分支機(jī)構(gòu)，專(zhuān)注跨文化品牌傳播；MediaPlus隸屬Serviceplan集團(tuán)，業(yè)務(wù)覆蓋34國(guó)，服務(wù)寶馬、奧迪等國(guó)際品牌。雙方合作將重塑全球化營(yíng)銷(xiāo)底層邏輯，推動(dòng)商業(yè)文明深度交融。

?華揚(yáng)聯(lián)眾 ?MediaPlus ?戰(zhàn)略合作
AI日?qǐng)?bào)：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國(guó)人工智能領(lǐng)域迎來(lái)技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國(guó)內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴

熱文

3 天
7天

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM