聲明:本文來(lái)自于微信公眾號(hào) AI新榜,作者:卷毛 阿虎,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。
“可靈持續(xù)領(lǐng)先!”
4月15日下午,快手宣布可靈AI全系模型進(jìn)入2.0時(shí)代。
自從上一次可靈1.6更新已過(guò)去近3個(gè)月,這次基座模型升級(jí),快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤在發(fā)布會(huì)上自信表示:“可圖2.0現(xiàn)在是行業(yè)領(lǐng)先的圖像模型……可靈2.0,特別在圖生視頻上持續(xù)全球大幅領(lǐng)先!”現(xiàn)場(chǎng)響起了一陣陣歡呼聲和掌聲。
“AI新榜”現(xiàn)場(chǎng)拍攝
升級(jí)后,可靈2.0視頻生成模型(大師版)具備更強(qiáng)的語(yǔ)義響應(yīng)、更優(yōu)的動(dòng)態(tài)質(zhì)量、更美的畫面質(zhì)感。
可靈2.0圖生視頻,提示詞:滑板運(yùn)動(dòng),圍繞滑板少年不斷運(yùn)動(dòng)
并且新增“多模態(tài)編輯”功能,支持對(duì)視頻增加、刪除、或替換元素。
可圖2.0圖像模型則大幅提升語(yǔ)義遵循能力,新增“圖片編輯”功能,支持局部重繪、多尺寸擴(kuò)圖;同時(shí)新增圖片“風(fēng)格轉(zhuǎn)繪”功能,支持響應(yīng)近60種風(fēng)格,更具電影質(zhì)感。
可圖2.0生成,提示詞:一張超現(xiàn)實(shí)的照片,一條河從客廳墻上的油畫中漂浮出來(lái),灑在沙發(fā)和木地板上,這幅畫描繪了山間一條寧?kù)o的河流。一艘船在水中輕輕搖晃,進(jìn)入客廳。河流的邊緣灑在木地板上,將藝術(shù)世界與現(xiàn)實(shí)融為一體??蛷d裝飾著高雅的家具和溫馨、溫馨的氛圍,電影、照片
可圖2.0生成,提示詞:工筆畫,林黛玉,穿著唐代的服裝,在咖啡店的角落,手里拿著一部智能手機(jī),側(cè)逆光,傍晚
難得的是,在許多AI產(chǎn)品“發(fā)布即等待”的當(dāng)下,可靈AI這回依舊是“發(fā)布即可用”,目前2.0模型已在網(wǎng)頁(yè)端和App端全量上線,可靈AI2.0靈感成真創(chuàng)作大賽也同步開啟。
可靈AI官網(wǎng):app.klingai.com
“AI新榜”在第一時(shí)間對(duì)可靈AI進(jìn)行了實(shí)測(cè),圖生視頻排隊(duì)時(shí)間較久,可能要半小時(shí)以上,還沒用上的朋友可以看看下面的測(cè)試案例。你覺得可靈2.0怎么樣?歡迎在評(píng)論區(qū)和我們交流。
可靈AI視頻全方位升級(jí),
多模態(tài)編輯重新定義AI交互
經(jīng)常使用AI生成視頻的創(chuàng)作者會(huì)發(fā)現(xiàn),現(xiàn)在的AI模型遠(yuǎn)遠(yuǎn)達(dá)不到一鍵成片的程度,仍需要斟酌每個(gè)鏡頭的提示詞或參考圖,輸出的視頻質(zhì)量不一定令人滿意,需要多次嘗試生成和修改。
比較常見的痛點(diǎn)包括提示詞響應(yīng)有限、理解有誤;畫面運(yùn)動(dòng)幅度不夠,有明顯的運(yùn)動(dòng)瑕疵;人物表情不自然,動(dòng)作不準(zhǔn)確等等。
針對(duì)這些問題,可靈2.0在語(yǔ)義遵循、畫面質(zhì)量、動(dòng)態(tài)質(zhì)量、真實(shí)度、美感等方面都進(jìn)行了完善迭代。
據(jù)快手副總裁、可靈AI負(fù)責(zé)人張迪介紹,在可靈AI上,85%的視頻創(chuàng)作是通過(guò)圖生視頻完成的。比如這個(gè)圖生視頻的例子,輸入“男人先是開心的笑著,突然變得憤怒,手錘桌子起身”。
可靈1.6生成的表情變化不明顯,手錘桌子起身的動(dòng)作也沒有展現(xiàn)出來(lái),但可靈2.0就能準(zhǔn)確完整地按照提示詞生成。
可靈1.6(上)和2.0(下)
我們測(cè)試了包含更多人物動(dòng)態(tài)和鏡頭運(yùn)動(dòng)的視頻:
提示詞:游樂場(chǎng)過(guò)山車極速俯沖鏡頭,第一人稱視角抖動(dòng)畫面,中年男子的雙手緊緊握著安全桿,前排少女馬尾辮呈失重狀懸浮,最后畫面定格在男子的尖叫表情特寫
提示詞:慢動(dòng)作雨巷追逐鏡頭,手持?jǐn)z影機(jī)跟隨濕發(fā)貼面的殺手,霓虹燈在雨傘旋轉(zhuǎn)時(shí)拖曳出彩色光軌,香煙煙霧與雨滴同速飄移,王家衛(wèi)電影色調(diào)
提示詞:穿著藍(lán)色建筑制服、戴著黃色安全帽的工人們,正在用小工具修理或制作巧克力蛋糕
可以看到,每一句提示詞要求的鏡頭、視角、人物動(dòng)作和表情等,可靈2.0都能準(zhǔn)確響應(yīng),人物反應(yīng)真實(shí)自然,復(fù)雜動(dòng)作的運(yùn)動(dòng)也更合理,畫面表現(xiàn)更具張力。
除了新模型,可靈2.0還上線了全新的多模態(tài)視頻編輯功能,能靈活理解用戶意圖,支持對(duì)視頻內(nèi)容實(shí)現(xiàn)增、刪、改。
沒錯(cuò),Pika和Viggle AI支持的視頻角色替換、模特?fù)Q衣、局部編輯等功能,現(xiàn)在可靈AI也能實(shí)現(xiàn)了。
1.替換元素
比如前陣子流行的“回答我”AI換臉視頻,我們?cè)诳伸`“多模態(tài)編輯”頁(yè)面上傳主播小明劍魔的視頻片段,框選要編輯的區(qū)域,再上傳要替換的角色圖片。
在創(chuàng)意描述中,可靈AI更新了一種交互方式,如下圖所示,原本難以描述清楚的需求,現(xiàn)在可靈結(jié)合圖像參考、視頻片段等信息,預(yù)設(shè)了提示詞框架,我們可以更直觀、更輕松地告訴AI要怎么編輯,這就是可靈AI新發(fā)布的交互理念MVL(Multi-modal Visual Language)。
MVL,一種更直觀的人和AI溝通的方式
等待幾分鐘,我們看到人物替換的效果相比Viggle AI更真實(shí),畫面質(zhì)量更高,甚至主播頭上“加我粉絲團(tuán)”的貼圖也完美還原了,下一步進(jìn)行對(duì)口型配音也可以在可靈AI完成。
不過(guò)人物動(dòng)作還原一般,目前可編輯的視頻時(shí)長(zhǎng)僅限5s,希望后續(xù)可以支持更長(zhǎng)的視頻。
2.增加元素
在多模態(tài)編輯中,選擇“增加元素”,上傳需要的圖片后,在下方文本輸入框內(nèi),同樣按照官方給定的模版“基于@ 參考視頻中的內(nèi)容,將@ 圖片中的元素,融入到視頻里”,明確需要添加的元素和位置。
我們覺得上面案例中的巧克力蛋糕太寡淡,需要加點(diǎn)裝飾,把麥麥的標(biāo)志P上去呢?來(lái)看看效果:
另外,我們還可以通過(guò)用涂抹的方式,圈出畫面中的某個(gè)元素,一鍵刪除。不過(guò),這里需要注意的是,一定要將這些關(guān)鍵幀覆蓋到整條時(shí)間軸,才能保證刪得徹底。
選區(qū)一定要保證覆蓋整個(gè)時(shí)間軸
可靈直接將蛋糕盤子秒變工地現(xiàn)場(chǎng),甚至還為我多配置了幾位現(xiàn)場(chǎng)工人:
更多案例可以參考可靈AI官方發(fā)布的演示視頻——
60多種風(fēng)格化效果,
可圖2.0一鍵直出像素漫畫
除了視頻模型外,圖片模型可圖2.0表現(xiàn)也可圈可點(diǎn)。
據(jù)快手介紹,在團(tuán)隊(duì)內(nèi)部的多項(xiàng)勝負(fù)率評(píng)測(cè)中,相較于Midjourney V7、FLUX1.1[pro]以及Reve等行業(yè)領(lǐng)先的圖像模型,可圖2.0均保持明顯優(yōu)勢(shì),處于行業(yè)領(lǐng)先水平。
可圖2.0在指令遵循、電影質(zhì)感以及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。比如我們讓可圖2.0生成了一組像素漫畫,這里使用的提示詞是:
三花貓從女生懷抱掙脫的連續(xù)動(dòng)作,第二格加入“焦慮汗珠”表情符號(hào),第三格腿部運(yùn)動(dòng)模糊軌跡,第四格鍵盤壓按特寫與游戲失敗界面,低分辨率像素畫,Q版角色設(shè)計(jì),日式游戲美術(shù)風(fēng)格
盡管AI將提示詞中的第3格和第4格內(nèi)容合并了,但2.0版本在語(yǔ)義理解、風(fēng)格轉(zhuǎn)繪上都有大幅提升。
可圖2.0(上)和1.5(下)版本有明顯差異
當(dāng)然,我們也可以讓它生成之前很火的3D模型:
同時(shí),可圖2.0也上線了實(shí)用的圖像可控編輯功能——局部重繪和擴(kuò)圖。
使用局部重繪功能,我們可以將圖片中多余的元素刪除、替換、重繪:
生成圖片后,我們還可以點(diǎn)擊“生成視頻”,獲得動(dòng)態(tài)3D模型,跑完圖生視頻整個(gè)工作流。
使用可圖2.0的擴(kuò)圖功能,我們可以隨意拖拽原圖位置,自由擴(kuò)展想要的圖片比例及尺寸,擴(kuò)展后的部分與原圖融合度較高。
在風(fēng)格化響應(yīng)上,可圖2.0還支持60多種風(fēng)格化的效果轉(zhuǎn)繪。無(wú)論是爆火的吉卜力風(fēng)格、毛絨玩具風(fēng)格,還是插畫風(fēng)格、3D卡通等等,可圖都可以實(shí)現(xiàn)。
初步實(shí)測(cè)來(lái)看,可靈2.0在模型技術(shù)和功能體驗(yàn)上都有不小的進(jìn)步,從圖片生成、視頻生成到配音對(duì)口型等內(nèi)容制作全流程都能覆蓋,是目前國(guó)內(nèi)創(chuàng)作者必備的AIGC產(chǎn)品。
不過(guò)最大的缺點(diǎn)可能是價(jià)格,目前2.0生成一條5秒鐘的視頻要100靈感值,黃金會(huì)員月費(fèi)58元可獲得660靈感值,只能生成6次,真是有點(diǎn)貴了。
在發(fā)布會(huì)現(xiàn)場(chǎng),可靈AI超級(jí)創(chuàng)作者、《新世界加載中》總導(dǎo)演、異類Outliers創(chuàng)始人陳翔宇提到,可靈AI可全面融入劇集級(jí)創(chuàng)作流程,AIGC相較于實(shí)拍和動(dòng)畫,不僅是效率的提升,更是試錯(cuò)空間的革命性釋放。
他認(rèn)為AI不是代替創(chuàng)作者,而是幫助我們更好地表達(dá)。“AIGC并不是降級(jí)的內(nèi)容形態(tài),它也許是下一代內(nèi)容結(jié)構(gòu)的雛形?!?/strong>
據(jù)快手?jǐn)?shù)據(jù),截至目前,可靈AI全球用戶規(guī)模突破2200萬(wàn),過(guò)去的10個(gè)月里,其月活用戶量增長(zhǎng)25倍,累計(jì)生成超過(guò)1.68億個(gè)視頻及3.44億張圖片。
除了C端訂閱用戶,可靈AI也面向B端商家提供API接入等服務(wù)。目前,可靈AI已與包括小米、亞馬遜云科技、阿里云、Freepik、藍(lán)色光標(biāo)等在內(nèi)的數(shù)千家國(guó)內(nèi)外企業(yè)客戶建立了合作關(guān)系。
蓋坤披露,來(lái)自世界各地的超1.5萬(wàn)開發(fā)者,已將可靈的API應(yīng)用于不同的行業(yè)場(chǎng)景中,累計(jì)生成的圖像數(shù)量約1200萬(wàn)個(gè),生成的視頻素材超過(guò)4000萬(wàn)個(gè)。
未來(lái)快手可靈AI團(tuán)隊(duì)還將發(fā)布推理更快、價(jià)格更普惠的不同模型版本,“讓每個(gè)人都能用AI講出好故事”。
從創(chuàng)意到現(xiàn)實(shí),AI正在改變內(nèi)容創(chuàng)作的全鏈路,我們相信隨著技術(shù)的創(chuàng)新進(jìn)步,AI創(chuàng)作的門檻會(huì)變得更低,靈感成真只需片刻。
(舉報(bào))