歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/
騰訊混元宣布推出五個全新開源3D生成模型,基于Hunyuan3D-2.0,具備更快的生成速度和更豐富的細(xì)節(jié)。Turbo系列模型利用FlashVDM框架實(shí)現(xiàn)生成加速,縮短至30秒內(nèi)完成。升級后的3D AI創(chuàng)作引擎支持多視圖輸入,用戶可通過上傳少量圖片快速生成高質(zhì)量3D模型,降低制作成本。新模型廣泛應(yīng)用于UGC、商品素材合成和游戲資產(chǎn)生成,滿足游戲3D資產(chǎn)標(biāo)準(zhǔn)。
【AiBase提要:】
? Turbo系列模型通過FlashVDM框架實(shí)現(xiàn)數(shù)十倍加速,生成時間縮短至30秒。
??? Hunyuan3D-2-MV模型能更好地捕捉細(xì)節(jié),生成符合用戶預(yù)期的3D資產(chǎn)。
??? 升級后的引擎支持多視圖輸入,用戶只需上傳2-4張圖片即可快速生成高質(zhì)量3D模型。
2、Anthropic發(fā)布MCP傳輸機(jī)制重大升級:告別長連接,迎接更靈活的Streamable HTTP
Anthropic對Model Context Protocol(MCP)進(jìn)行了重大更新,推出了Streamable HTTP傳輸方式,取代了傳統(tǒng)的HTTP+SSE方案。這一創(chuàng)新解決了MCP遠(yuǎn)程傳輸?shù)年P(guān)鍵限制,提升了靈活性和兼容性。新機(jī)制允許客戶端與服務(wù)器之間更高效的雙向通信,支持無狀態(tài)服務(wù)器運(yùn)行,簡化了部署流程,并提高了系統(tǒng)的可擴(kuò)展性。
【AiBase提要:】
?? 移除專用的/sse端點(diǎn),所有消息通過統(tǒng)一的/message端點(diǎn)傳輸,簡化了通信流程。
?? 服務(wù)器可動態(tài)將HTTP請求升級為SSE流,支持靈活的雙向通信,解決了SSE的單向限制。
?? 新方案兼容性大幅提升,適用于各種網(wǎng)絡(luò)基礎(chǔ)設(shè)施,支持無狀態(tài)模式,降低了資源消耗。
詳情鏈接:https://github.com/modelcontextprotocol/specification/pull/206
3、生數(shù)科技Vidu將打造首部海外AI原創(chuàng)科幻動漫劇集
生數(shù)科技有限公司與Aura Productions達(dá)成戰(zhàn)略合作,計(jì)劃推出首部海外AI原創(chuàng)科幻動漫劇集。這一合作標(biāo)志著AI技術(shù)在動漫制作中的應(yīng)用,開啟了動漫行業(yè)新的篇章。雙方將共同制作50集短篇科幻動漫系列,利用Vidu的先進(jìn)視頻生成技術(shù),提升制作效率和質(zhì)量,預(yù)示著未來動漫創(chuàng)作將更加智能化和高效化。
【AiBase提要:】
?? 合作推出50集短篇科幻動漫系列,計(jì)劃在全球主流社交媒體平臺發(fā)布。
?? Vidu的多主體一致性功能確保角色與場景的無縫融合,實(shí)現(xiàn)高質(zhì)量動畫敘事。
?? Vidu2.0版本大幅提升視頻生成效率,能在10秒內(nèi)快速生成高質(zhì)量視頻。
4、谷歌云重磅推出高清語音模型 Chirp3,支持248種聲音
谷歌云在倫敦的DeepMind總部推出了高清語音模型Chirp3,旨在為開發(fā)者提供強(qiáng)大的語音合成工具。該模型支持248種不同的聲音和31種語言,能夠幫助開發(fā)者創(chuàng)建智能語音助手、有聲讀物和視頻配音等應(yīng)用。為了確保負(fù)責(zé)任的使用,谷歌限制了語音克隆功能的訪問權(quán)限,并重申了對數(shù)據(jù)隱私的承諾。
【AiBase提要:】
?? 谷歌云推出Chirp3語音模型,支持248種聲音和31種語言,助力開發(fā)者構(gòu)建智能應(yīng)用。
?? 谷歌限制語音克隆功能的訪問權(quán)限,以確保倫理AI的實(shí)踐和防止濫用。
?? 谷歌發(fā)起計(jì)劃提升英國AI技能,并向初創(chuàng)企業(yè)提供云基礎(chǔ)設(shè)施支持,促進(jìn)創(chuàng)新。
詳情鏈接:https://cloud.google.com/text-to-speech/docs/chirp3-hd
5、馬斯克xAI收購視頻生成初創(chuàng)公司Hotshot,AI視頻領(lǐng)域競爭再升級
埃隆·馬斯克旗下的xAI公司收購了視頻生成AI初創(chuàng)公司Hotshot,標(biāo)志著其在多模態(tài)AI技術(shù)領(lǐng)域的進(jìn)一步擴(kuò)展。Hotshot以其獨(dú)特的技術(shù)優(yōu)勢和強(qiáng)大的算力支持,致力于提升視頻生成能力。
【AiBase提要:】
?? Hotshot專注于AI視頻生成,利用600萬個視頻片段進(jìn)行訓(xùn)練,提升了模型理解視頻內(nèi)容的能力。
?? 收購后,Hotshot將繼續(xù)擴(kuò)大視頻生成器的開發(fā),利用xAI的Colossus超級計(jì)算機(jī)的強(qiáng)大算力。
?? 此次收購標(biāo)志著馬斯克在AI技術(shù)領(lǐng)域的進(jìn)一步布局,預(yù)示著AI視頻生成技術(shù)將迎來新一輪的突破。
6、Roblox開源Cube3D:首個基礎(chǔ)AI模型實(shí)現(xiàn)3D對象生成
Roblox近日推出并開源了Cube3D,這是其首個用于生成3D對象的基礎(chǔ)AI模型,旨在提升3D創(chuàng)作效率。該模型通過創(chuàng)新的訓(xùn)練方法,將3D對象標(biāo)記化,能夠快速生成完整的3D形狀。未來,Cube3D將發(fā)展為一個多模態(tài)模型,支持多種輸入類型,包括文本、圖像和視頻,進(jìn)一步增強(qiáng)與Roblox現(xiàn)有AI創(chuàng)作工具的整合。
【AiBase提要:】
??? Cube3D是Roblox首個開源的3D對象生成AI模型,旨在提高開發(fā)者的創(chuàng)作效率。
?? 該模型通過創(chuàng)新的訓(xùn)練方法,能夠?qū)?D對象標(biāo)記化并預(yù)測下一個形狀,快速構(gòu)建完整的3D對象。
?? Roblox計(jì)劃將Cube3D發(fā)展為多模態(tài)模型,未來將支持文本、圖像和視頻輸入,增強(qiáng)創(chuàng)作工具的功能。
7、Zoom AI助手AI Companion功能升級
Zoom公司最近宣布了其AI助手Zoom AI Companion的新一輪功能升級,標(biāo)志著這一工具的演變,旨在提升用戶在視頻會議中的互動體驗(yàn)和工作效率。新功能包括自動識別和完成待辦事項(xiàng)的Zoom Tasks、轉(zhuǎn)錄線下對話的新語音錄音器、以及定制AI助手等,預(yù)計(jì)將顯著增強(qiáng)用戶的生產(chǎn)力和協(xié)作能力。
【AiBase提要:】
?? Zoom Tasks功能可以自動識別會議中的待辦事項(xiàng)并完成相關(guān)任務(wù)。
??? 新語音錄音器能夠轉(zhuǎn)錄線下對話并提供實(shí)時會議筆記。
?? 定制AI助手功能將于4月推出,用戶可根據(jù)需求定制功能。
8、128K超長記憶!Mistral最新開源模型Mistral Small3.1登場,參數(shù)方面優(yōu)于 GPT-4o Mini
Mistral AI發(fā)布了開源模型Mistral Small3.1,憑借240億參數(shù)的設(shè)計(jì),其性能可與谷歌和OpenAI的產(chǎn)品相媲美。該模型在文本處理和多模態(tài)理解上有顯著提升,支持128k tokens的上下文窗口,處理速度達(dá)到每秒150個tokens。
【AiBase提要:】
?? Mistral Small3.1具備240億參數(shù),性能媲美谷歌和OpenAI的同類產(chǎn)品,推動AI市場競爭。
?? 該模型支持128k tokens的上下文窗口,處理速度高達(dá)每秒150個tokens,適用于長文檔和快速響應(yīng)場景。
?? Mistral采取開源策略,發(fā)布Apache2.0許可證,強(qiáng)調(diào)歐洲數(shù)字主權(quán),吸引全球開發(fā)者參與創(chuàng)新。
詳情鏈接:https://top.aibase.com/tool/mistral-small-3-1
9、誰說視頻只能“一鏡到底”?字節(jié)創(chuàng)新技術(shù)LCT,讓AI像導(dǎo)演一樣拍攝電影大片!
長上下文調(diào)整(LCT)技術(shù)的出現(xiàn),極大提升了AI生成視頻的敘事能力,使其能夠像電影導(dǎo)演一樣自由切換鏡頭,構(gòu)建更連貫的故事場景。通過引入全注意力機(jī)制、交錯的3D位置嵌入和異步噪聲策略,LCT解決了多鏡頭生成中的視覺一致性和時間動態(tài)問題。
【AiBase提要:】
?? LCT技術(shù)使AI視頻生成模型能夠執(zhí)導(dǎo)多鏡頭敘事視頻,提升敘事能力。
?? 通過全注意力機(jī)制和交錯的3D位置嵌入,LCT確保視覺一致性和時間動態(tài)。
?? LCT支持自回歸鏡頭擴(kuò)展,便于長視頻創(chuàng)作和交互式修改。
詳情鏈接:https://top.aibase.com/tool/zhangshangxiawentiaoyoulct
10、32B參數(shù)的“逆襲”!OLMo232B橫空出世,叫板GPT-3.5Turbo
OLMo232B是艾倫人工智能研究所發(fā)布的最新大型語言模型,憑借320億參數(shù)和完全開源的特性,挑戰(zhàn)了許多專有模型。通過精細(xì)的訓(xùn)練過程,OLMo232B在多項(xiàng)基準(zhǔn)測試中超越了GPT-3.5Turbo和GPT-4o mini,展現(xiàn)出卓越的性能和更高的訓(xùn)練效率。
【AiBase提要:】
?? OLMo232B是完全開源的語言模型,公開了所有數(shù)據(jù)、代碼和訓(xùn)練過程,促進(jìn)全球研究合作。
?? 該模型擁有320億參數(shù),在多項(xiàng)基準(zhǔn)測試中超越了GPT-3.5Turbo,證明了開源模型的強(qiáng)大實(shí)力。
? OLMo232B在訓(xùn)練效率上表現(xiàn)優(yōu)異,僅使用三分之一的計(jì)算資源,展現(xiàn)出高效的AI開發(fā)潛力。
詳情鏈接:https://github.com/allenai/OLMo-core
(舉報(bào))