聲明:本文來自于微信公眾號 AI新榜,作者:王萌,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
AI的“神仙打架”從未停歇,尤其在文生圖這個燒錢又內(nèi)卷的賽道。
但當所有人的目光都聚集在OpenAI、Google、Midjourney等“頭號玩家”時,一個相對低調(diào)的中國團隊,卻悄然登上了多個AI模型能力榜單前列,引起AI圈熱議,它就是HiDream。
4月21日排名
海外論壇Reddit網(wǎng)友對HiDream的評價
而且HiDream作為榜單上為數(shù)不多的開源模型,在Hugging Face等開發(fā)者社區(qū)上同樣非常熱門。
Hugging Face趨勢排名,截圖時間4月21日
這就不禁讓人好奇:這款來自國內(nèi)團隊的開源模型,其實力究竟如何?我們將HiDream-I1Dev與GPT-4o及同樣表現(xiàn)出色的SeeDream3.0(即夢)以及廣受歡迎的Recraft V3進行正面對比,看看它是否真的具備挑戰(zhàn)頂級模型的能力。
與巨頭硬碰硬,HiDream的底氣在哪里?
我們的測試一共分為五組,涵蓋了對提示詞理解能力、寫實風格還原、人物動態(tài)與細節(jié)、創(chuàng)意表達、材質(zhì)真實性、光影與景深控制、文本能力等多方面的考察,通過一系列較為典型的提示詞信息,觀察模型生成圖片的效果。
測試一:復雜場景理解、寫實與材質(zhì)表現(xiàn)
提示詞:一張高度寫實的照片,一個凌亂但有序的藝術(shù)家工作室。陽光透過一扇大窗戶射入,照亮了空氣中飛舞的塵埃。一張磨損的木質(zhì)工作臺上,放著一個未完成的粘土雕塑,旁邊散落著各種雕刻工具(鑿子、金屬刮刀)。附近放著一個高度拋光的鉻合金茶壺,扭曲地反射著周圍的景象和窗外的綠樹。背景的書架上擺滿了顏料罐和畫筆。強調(diào)不同材質(zhì)的質(zhì)感(粗糙粘土、光滑金屬、舊木紋、玻璃光澤),光線柔和而有方向感。
第一個測試屬于牛刀小試,測試重點在于:對復雜場景布局、多物體關(guān)系、光影氛圍的理解、同時渲染多種差異巨大的材質(zhì)(粘土、金屬、木材、玻璃)、照片級真實感和細節(jié)刻畫。
從實測結(jié)果不難看出,各個模型在這些方面都做得不錯,但細看還是能看到一些差別。例如GPT-4o沒有做出提示詞中要求的“空氣中飛舞的塵?!?,且桌面非常整齊,“整齊”多于“凌亂”,HiDream書架不太明顯,沒能很好地表現(xiàn)出“書架擺滿了顏料罐和畫筆”。
測試二:創(chuàng)意概念、特定藝術(shù)風格模仿與氛圍營造
提示詞:一個設定在巨大空心古樹內(nèi)部的熙熙攘攘的市場場景。長著昆蟲翅膀的奇幻小生物們在攤位上售賣發(fā)光的水果和閃光的布料。建筑風格融合了有機的樹根和精致的精靈風格雕刻。采用“吉卜力工作室動畫(Studio Ghibli animation)”的鮮明視覺風格進行渲染,注重鮮艷的色彩、柔和的光線和充滿奇幻感的氛圍。
這項測試的重點在于:理解并視覺化高度想象力的概念;準確模仿指定的、具有強烈辨識度的藝術(shù)風格;營造特定的情緒和氛圍;處理多角色和環(huán)境細節(jié)的一致性問題。
雖然各個模型都能完成創(chuàng)意理解和風格模仿的任務:GPT-4o生成圖像中的人物更像宮崎駿動畫中的角色,色彩柔和但整體偏綠;HiDream忽略了“巨大空心樹”的設定,且出現(xiàn)了一定程度的臉部崩壞;只有即夢表現(xiàn)出了發(fā)光的水果和閃光的布料,綜合表現(xiàn)更好。
測試三:人物動態(tài)、細節(jié)捕捉與極端光影控制
提示詞:特寫動作鏡頭,一位廚師戴著黑色薄手套的雙手,正在一個燃著熊熊火焰的炒鍋中快速顛勺,拋起混合著五顏六色蔬菜的食材。微小的油滴和醬汁瞬間懸浮在空中。廚師的臉上(部分可見或完全可見)表情高度專注。需要捕捉到手和蔬菜的動態(tài)模糊效果,同時保持炒鍋中的火焰和廚師表情的清晰。采用高對比度的戲劇性舞臺式打光。
這輪測試重點在于:準確描繪人物動態(tài)(尤其是手部);捕捉高速運動的瞬間細節(jié)(油滴、模糊效果);控制復雜且對比強烈的光影環(huán)境。
由于測試難度提高了一些,這輪各個模型在手部細節(jié)、動態(tài)捕捉(如火焰、油滴)等方面上都出現(xiàn)了不同程度的問題,即夢生成的圖片效果相較其他三個更好一些。
測試四:排版設計、文字生成與應用場景模擬
提示詞:設計一本名為‘Cosmic Whispers’(宇宙低語)的科幻小說封面。主視覺是一個抽象的、由相互纏繞的發(fā)光能量觸須構(gòu)成的圖案,連接著兩個跨越深空星云背景的風格化剪影人形。書名 ‘Cosmic Whispers’ 使用簡潔現(xiàn)代的無襯線字體,醒目地放在封面頂部。作者名 ‘A.I. Genesis’ 使用稍小字體放在底部。整體呈現(xiàn)專業(yè)、引人入勝的平面設計感。
這項測試測試的重點是:準確生成指定英文文字(包括大小寫和內(nèi)容);理解并執(zhí)行排版布局要求(位置、字體風格);結(jié)合圖像和文字創(chuàng)造出符合特定類型(科幻小說封面)的設計美感;模擬實際應用場景。
四個模型都能很好地完成封面任務,并且呈現(xiàn)出了提示詞要求的線條、人形剪影,但細節(jié)處還是能看到一些區(qū)別:只有即夢按照提示詞的要求準確區(qū)分出了標題和作者的英文大小寫;Recraft和即夢模擬了書籍封面的呈現(xiàn)形式;GPT-4o封面右下角出現(xiàn)了第三個人。
測試五:微距細節(jié)、特殊材質(zhì)與精確控制
提示詞:微距特寫攝影:一片奇幻生物的虹彩(iridescent)鱗片,色彩隨光線角度變化。幾顆完美的、微小的露珠附著在鱗片上,折射著周圍的光線,顯現(xiàn)出迷你的彩虹棱鏡效果。背景是柔和失焦的深綠色葉子。要求極高的細節(jié)銳度,淺景深效果,焦點精確地落在露珠和鱗片的紋理上。
測試重點: 特殊光學效果材質(zhì)(彩虹、水珠折射);對攝影參數(shù)(景深、焦點)的精確控制能力;極端細節(jié)的刻畫能力(微距級別);處理重復性精細紋理。
HiDream能夠生成微距效果,并在一定程度上表現(xiàn)了鱗片的紋理和露珠,但在精確還原“虹彩”隨光線變色的效果上可能不夠理想,需要更精細的提示詞引導;Recraft更偏寫實風格,在表現(xiàn)水珠折射上也更偏保守;相較而言即夢呈現(xiàn)的圖像更接近提示詞要求。
其他測試案例
除了這些針對具體能力的測試以外,我們還嘗試了更多不同風格的案例,下面是HiDream的生成效果。
提示詞:一幅以愛德華·霍普風格創(chuàng)作的畫作,描繪了深夜時分,一個人獨自坐在小餐館柜臺前的場景。畫面的氛圍靜謐而孤獨,充滿內(nèi)省的意味,光影對比強烈,長長的陰影投射在房間里。要著重強調(diào)城市中的孤獨感。
提示詞:一張高質(zhì)量的產(chǎn)品渲染圖:一個啞光黑色的無線耳機充電盒,略微打開,露出里面的白色耳機。充電盒放在一塊有質(zhì)感的灰色石頭上。充電盒蓋子內(nèi)側(cè)(如果可見)或旁邊標簽上印有小小的、清晰的logo文字 'Meng'. 整體光線柔和,突出產(chǎn)品的精致感和材質(zhì)(啞光塑料、光滑石頭)。
提示詞:設計一個現(xiàn)代、簡約的Logo,用于名為 'NewRank Tech' 的環(huán)??萍脊尽ogo應包含一個風格化的葉子圖案,并與抽象的電路/芯片圖案巧妙融合。主要使用藍紫色和橙色。
提示詞:這是一張寫實風格的照片,一匹馬從左向右在一片廣闊而平靜的海面上飛奔。畫面精準地捕捉了濺起的水花、水面上的反射,以及馬蹄下細膩的漣漪圖案。馬的動作被適度夸張,而周圍的環(huán)境則保持靜止和寧靜,以此突出馬的力量感。整體構(gòu)圖簡潔而富有電影感,采用寬廣的全景視角,展現(xiàn)了遠處的地平線。通過大氣透視營造出深度感。在浩瀚的海洋面前,馬的身影被放大,但依然顯得渺小,進一步強化了對比效果。
提示詞:一只可愛的貓睡在書架上,油畫風格。
提示詞:一座現(xiàn)代化工業(yè)工廠的低多邊形風格鳥瞰圖,建筑為白色或淺灰色,結(jié)構(gòu)包含大型主廠房、儲罐、煙囪、管道、出入口和卡車。環(huán)境清新,有綠樹、馬路、水渠,整體構(gòu)圖有條理,風格極簡且色彩明亮,適合用于數(shù)字孿生可視化或工業(yè)動畫展示。
總體而言,HiDream在圖像、寫實風格下的質(zhì)感表現(xiàn)、復雜場景的細節(jié)刻畫等方面確實具備了與一線模型掰手腕的實力,站穩(wěn)第一梯隊是完全沒有問題的。
而且HiDream支持輸出4K高清圖像,出圖速度快,還可以直接掛進內(nèi)容生產(chǎn)鏈路,例如ComfyUI等。
值得注意的是,HiDream基于中國本土打造,在使用較為中性的提示詞生成包含人物面部的圖像時,比較傾向于生成亞洲人,在審美上也比較貼近國人審美。
連續(xù)20次使用中性描述“A portrait photo of a person.(一個人物肖像圖片)”測試
此外,HiDream在生成中文方面卻表現(xiàn)欠佳,雖然支持中文提示詞,但使用英文提示詞效果更佳。
HiDream生成的中文
此外,HiDream對一些較為模糊、抽象的提示詞理解能力有待提高,在生成某些需要獨特創(chuàng)意或特定氛圍的圖像時,表現(xiàn)可能不如其他模型。
例如前文“測試五”中,HiDream生成的圖片在光學效果、攝影效果等方面表現(xiàn)尚可,但需要多次額外強調(diào)細節(jié)才能生成理想中的彩色鱗片特寫。
綜合而言,雖然HiDream文生圖能力達到了第一梯隊的水平,但缺點也非常明顯。
優(yōu)點:
高清晰度與細節(jié):支持輸出4K高清圖像,分辨率高,細節(jié)豐富。
出色的質(zhì)感還原: 對于不同材質(zhì)的物理屬性和光澤反射模擬得比較準確,能夠很好地理解并執(zhí)行復雜提示詞匯總的元素和要求。
畫面質(zhì)量穩(wěn)定: 生成質(zhì)量穩(wěn)定,出圖速度快,還可以直接掛進內(nèi)容生產(chǎn)鏈路(例如前文提到的ComfyUI)。
本土化優(yōu)勢: 在亞洲面孔的還原上可能更貼近國內(nèi)審美。
缺點:
缺乏特色:雖處于文生圖第一梯隊,但并沒有在某一方面表現(xiàn)最為突出。
文本能力不強:無法生成中文,雖支持中文提示詞,但使用英文提示詞生圖效果更佳。
抽象提示詞理解能力有待提高:在生成某些需要創(chuàng)意或特定氛圍的圖像時,表現(xiàn)不如其他模型。
人物動態(tài)略顯僵硬。
左為HiDream,右為即夢
值得一提的是,官方為模型提供了落地產(chǎn)品vivago.ai(https://vivago.ai/home)。但我們在測試中發(fā)現(xiàn),vivago.ai實際出圖能力可能弱于通過第三方工具調(diào)用其開源模型。鑒于我們評測使用的是由Recraft調(diào)用的HiDream-I1Dev,vivago.ai使用的模型很可能使用是參數(shù)量更小的HiDream-I1Flash模型。而且vivago.ai生成的圖片帶有水印。
使用vivago.ai生圖需要付費去水印
“測試三”中,相同的提示詞在vivago.ai和Recraft調(diào)用HiDream模型的文生圖表現(xiàn)對比,vivago并沒有做到我們要求的“吉卜力風格”
小團隊+開源,黑馬的“突圍”之道?
當我們看到HiDream在AI模型榜單上的亮眼表現(xiàn)時,也有很多人注意到這樣一個問題——為什么在文生圖這個領(lǐng)域,我們看到的大多是閉源的商業(yè)模型,而非開源項目?
答案并不復雜,主要歸結(jié)于高昂的訓練成本與資源壁壘,以及主流的商業(yè)模式選擇。
訓練一個頂級的文生圖模型,既包括大規(guī)模GPU集群的算力成本、海量高質(zhì)量圖像與數(shù)據(jù)的獲取成本,以及頂尖算法工程師團隊的研發(fā)成本。這種“燒錢”的特性,天然地將大多數(shù)資源有限的玩家擋在了門外,使得大型科技公司或資金雄厚的AI獨角獸占據(jù)了主導地位。
同時,這些投入巨大的公司,自然傾向于選擇能夠快速回收成本并實現(xiàn)盈利的商業(yè)模式,所以我們常常可以看到廠商通過訂閱付費墻、API調(diào)用服務等形式,將模型本身作為核心資產(chǎn)進行商業(yè)變現(xiàn)。
在這樣的背景下,小團隊面臨的困境顯而易見。它們既缺乏與巨頭抗衡的資金和資源去“軍備競賽”,又難以在成熟的閉源商業(yè)模式下找到差異化的生存空間。許多有潛力的技術(shù)團隊可能因此在基礎(chǔ)模型層面望而卻步,轉(zhuǎn)向更輕量級的應用層開發(fā)。
所以HiDream的故事就顯得尤為獨特,這家成立于2023年3月、來自中國合肥的公司,依托中科大的人才資源,由一支50人的團隊在短時間內(nèi)拿出了一款在多項基準測試和實際效果上能與頂級模型掰手腕的產(chǎn)品。
更關(guān)鍵的是,面對行業(yè)主流的閉源模式,HiDream卻選擇了開源,關(guān)于其中原因,CEO梅濤在此前接受甲子光年采訪時表示:
我們希望通過開源的方式,讓別人踩在我們的肩膀上不斷前進……圖片模型不是我們商業(yè)化的終點,我們希望通過開源模型把社區(qū)建設得更好……現(xiàn)在很多大模型公司轉(zhuǎn)向開源一方面是被倒逼的,另一方面他們過去忽視了開源社區(qū)的品牌價值和生態(tài)影響力。
顯然,HiDream意在通過文生圖模型作為切入口,凝聚更多開發(fā)者和用戶,為將來可能的視頻生成等更復雜的領(lǐng)域構(gòu)建生態(tài)護城河,形成一種經(jīng)典的“以開放換未來”的打法。
實際上,這樣的故事在AI行業(yè)已經(jīng)出現(xiàn)太多太多,例如之前智譜開源的文生圖模型CogView4等。近期OpenAI嘗試打造的AI社交平臺,在一定程度上也是為了通過打造社群來搶數(shù)據(jù)、搶流量。
在Recraft上使用HiDream-I1模型
值得一提的是,HiDream最新開源的模型都已經(jīng)完成了國產(chǎn)GPU的適配,如果能實現(xiàn)算法與硬件的深度協(xié)同優(yōu)化,可能探索出一條獨特的軟硬結(jié)合發(fā)展路徑,為國產(chǎn)AI軟硬件生態(tài)的建設提供一個正向循環(huán)的案例。
當然,這種開源模式也會面臨一些挑戰(zhàn),例如怎樣在開源的同時找到可持續(xù)的商業(yè)模式?對此,HiDream.ai公司CTO姚霆在此前接受采訪時是這樣回答的:
我們不需要等到基礎(chǔ)模型達到100分才去做應用。在現(xiàn)有的基礎(chǔ)模型能力之上,如果你能找到真正解決用戶痛點的場景,并在應用上做得很深,真正做到端到端的95分以上,用戶就會買單。
顯然HiDream采取了一種較為務實的策略,即追求基礎(chǔ)模型能力的同時,也強調(diào)找到合適的應用場景,我們在其體驗網(wǎng)站上,也可以看到很多附加的小功能,例如AI試衣、Logo設計、AI人像等。
雖然其中很多功能仍處于早期階段,實際效果和穩(wěn)定性還有提升空間,但也不失為打通模型與應用的一種好的嘗試。
HiDream團隊不久前還曾發(fā)文表示,團隊另有支持交互式圖像編輯的模型HiDream-E1也將開源,未來還將發(fā)布多模態(tài)Agent產(chǎn)品,或許HiDream還有更多驚喜在等著我們。
HiDream-E1的圖像編輯效果
不難看出,HiDream的案例為我們展示了這樣一種可能:小團隊憑借在特定技術(shù)點的突破,結(jié)合開源策略,快速建立影響力,并圍繞核心技術(shù)構(gòu)建應用生態(tài)。
這種模式會在未來孕育出更多挑戰(zhàn)巨頭的“AI黑馬”嗎?歡迎在評論區(qū)分享你的答案。
體驗地址:
https://vivago.ai/home
模型地址:
https://huggingface.co/HiDream-ai/HiDream-I1-Full
代碼倉庫:
https://github.com/HiDream-ai/HiDream-I1
(舉報)