歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/
1、阿里通義開源R1-Omni模型 可提升多模態(tài)情感識(shí)別能力
通義實(shí)驗(yàn)室團(tuán)隊(duì)于3月11日開源了R1-Omni模型,標(biāo)志著全模態(tài)模型的發(fā)展取得了重要進(jìn)展。該模型通過結(jié)合強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎(jiǎng)勵(lì)的方法,顯著提升了多模態(tài)情感識(shí)別的推理能力和泛化性能。訓(xùn)練過程分為冷啟動(dòng)和RLVR兩個(gè)階段,確保了模型在多模態(tài)情感識(shí)別任務(wù)中的穩(wěn)定性和效率。
【AiBase提要:】
?? R1-Omni模型結(jié)合強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎(jiǎng)勵(lì),專注于多模態(tài)情感識(shí)別的推理能力提升。
?? 在冷啟動(dòng)階段,模型通過580條視頻數(shù)據(jù)進(jìn)行微調(diào),為后續(xù)訓(xùn)練打下基礎(chǔ)。
?? 實(shí)驗(yàn)結(jié)果顯示,R1-Omni在多個(gè)測試集上相較于基線模型提升超過35%,展現(xiàn)出卓越的泛化能力。
詳情鏈接:https://arxiv.org/abs/2503.05379
2、OpenAI推出新工具,助力AI智能體從“回答問題”跨越到“執(zhí)行任務(wù)”
OpenAI最近發(fā)布了一系列新工具,旨在簡化AI智能體的開發(fā)流程并增強(qiáng)其功能。這些工具包括Responses API、Agents SDK和計(jì)算機(jī)使用工具,標(biāo)志著AI從單純回答問題向?qū)嶋H執(zhí)行任務(wù)的轉(zhuǎn)變。新工具的推出將顯著提升AI在現(xiàn)實(shí)世界中的應(yīng)用能力,為開發(fā)者提供更強(qiáng)大的支持,預(yù)計(jì)將在未來的科技發(fā)展中發(fā)揮重要作用。
【AiBase提要:】
?? 新推出的Responses API結(jié)合聊天功能與多種集成工具,提供實(shí)時(shí)信息和引用來源,提升開發(fā)靈活性。
?? Agents SDK作為開源框架,協(xié)調(diào)多個(gè)智能體之間的復(fù)雜工作流程,提高信息檢索效率。
?? 計(jì)算機(jī)使用工具使AI能夠直接在計(jì)算機(jī)上執(zhí)行任務(wù),標(biāo)志著AI功能的重大升級(jí)。
3、百度AI開源表格識(shí)別模型PP-TableMagic
3月11日,百度AI推出了PP-TableMagic,一個(gè)開源的表格識(shí)別解決方案,標(biāo)志著表格結(jié)構(gòu)化信息提取領(lǐng)域的重大進(jìn)步。該技術(shù)通過創(chuàng)新的多模型組網(wǎng)架構(gòu),克服了傳統(tǒng)表格識(shí)別在復(fù)雜場景下的局限性,實(shí)現(xiàn)了高精度的端到端表格識(shí)別,并支持模型的高定制化微調(diào)。PP-TableMagic的設(shè)計(jì)使其能夠高效處理各種表格數(shù)據(jù),極大地提升了文檔智能理解和數(shù)據(jù)分析的能力,適應(yīng)了數(shù)字化時(shí)代的需求。
【AiBase提要:】
??? PP-TableMagic采用多模型串聯(lián)架構(gòu),提升了表格識(shí)別的精度和適應(yīng)性。
?? 該模型支持定制化微調(diào),能夠滿足不同場景的需求,減少數(shù)據(jù)標(biāo)注工作量。
?? 提供詳細(xì)的安裝指南和使用教程,支持高性能推理和服務(wù)化部署。
詳情鏈接:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md
4、Manus與阿里云通義千問達(dá)成合作,共推國產(chǎn)AI智能體產(chǎn)品
人工智能Agent產(chǎn)品新秀Manus與阿里云旗下大語言模型通義千問達(dá)成戰(zhàn)略合作,雙方將基于通義千問系列開源模型,在國產(chǎn)模型和算力平臺(tái)上實(shí)現(xiàn)Manus的全部功能。此舉旨在為中國用戶打造更具創(chuàng)造力的通用智能體產(chǎn)品。盡管Manus在發(fā)布后遇到了一些問題,但其早期預(yù)覽版展示了自動(dòng)執(zhí)行復(fù)雜任務(wù)的能力,標(biāo)志著國產(chǎn)AI技術(shù)的進(jìn)步。
【AiBase提要:】
?? Manus與阿里云通義千問達(dá)成戰(zhàn)略合作,推動(dòng)國產(chǎn)AI智能體產(chǎn)品的發(fā)展。
?? 雙方將基于通義千問開源模型,實(shí)現(xiàn)Manus的全部功能,提升用戶體驗(yàn)。
?? Manus展示了自動(dòng)執(zhí)行復(fù)雜任務(wù)的能力,標(biāo)志著全球首款通用智能體產(chǎn)品的發(fā)布。
5、告別平面!MIDI:可提取圖片元素生成360度3D場景
MIDI技術(shù)的出現(xiàn)為我們帶來了從單張2D圖像生成360度3D場景的可能性。通過智能分割和多實(shí)例同步擴(kuò)散,MIDI能夠高效地構(gòu)建出細(xì)致入微的3D環(huán)境,極大地提升了虛擬現(xiàn)實(shí)、游戲開發(fā)和室內(nèi)設(shè)計(jì)等領(lǐng)域的內(nèi)容創(chuàng)作效率。未來,用戶只需拍攝一張照片,就能快速生成可交互的3D場景,真正實(shí)現(xiàn)“一鍵穿越”的夢(mèng)想。
【AiBase提要:】
??? MIDI通過智能分割技術(shù),能夠識(shí)別并提取2D圖像中的獨(dú)立元素,為3D場景構(gòu)建提供基礎(chǔ)。
?? 采用多實(shí)例同步擴(kuò)散,MIDI可同時(shí)對(duì)多個(gè)物體進(jìn)行建模,提升了3D生成的效率與協(xié)調(diào)性。
?? MIDI在有限數(shù)據(jù)下展現(xiàn)出強(qiáng)大的泛化能力,生成的3D場景紋理細(xì)膩,效果真實(shí)。
詳情鏈接:https://huanngzh.github.io/MIDI-Page/
6、視頻局部編輯技術(shù)VideoPainter:輸入提示詞自動(dòng)識(shí)別修改,支持長視頻
VideoPainter是一款基于深度學(xué)習(xí)的視頻編輯工具,能夠通過簡單的提示詞自動(dòng)識(shí)別并修改視頻內(nèi)容,尤其適合長視頻處理。用戶只需輸入簡短的指令,系統(tǒng)便能快速完成編輯,極大提升了視頻制作的效率。其背后的Diffusion Transformer模型使得編輯過程更為精準(zhǔn),用戶可以輕松實(shí)現(xiàn)創(chuàng)意轉(zhuǎn)化,真正改變了視頻編輯的游戲規(guī)則。
【AiBase提要:】
? 通過簡單的提示詞,VideoPainter能夠自動(dòng)識(shí)別并修改視頻內(nèi)容,提升編輯效率。
?? 適合長視頻處理,用戶可以快速找到并修改特定片段,避免繁瑣的傳統(tǒng)編輯流程。
?? 基于先進(jìn)的DiT模型,VideoPainter提供高準(zhǔn)確性和靈活性,讓創(chuàng)意轉(zhuǎn)化為現(xiàn)實(shí)變得簡單。
詳情鏈接:https://yxbian23.github.io/project/video-painter/
7、開源版OpenAI Operator來了!Nanobrowser瀏覽器的免費(fèi)AI自動(dòng)化超人
Nanobrowser是一款完全免費(fèi)的開源工具,旨在為用戶提供高效的網(wǎng)頁自動(dòng)化功能,同時(shí)確保數(shù)據(jù)安全和隱私。用戶只需安裝擴(kuò)展程序并配置自己的LLM API密鑰,即可享受頂級(jí)的自動(dòng)化體驗(yàn)。與傳統(tǒng)的RPA工具相比,Nanobrowser以其直觀的操作界面和多代理系統(tǒng),使得即使是小白用戶也能輕松上手。
【AiBase提要:】
?? Nanobrowser是完全免費(fèi)的開源工具,無需訂閱費(fèi)用,用戶可自主配置LLM API密鑰。
?? 所有操作在本地瀏覽器中進(jìn)行,確保用戶隱私和數(shù)據(jù)安全,避免敏感信息泄露。
?? 支持OpenAI、Anthropic和Google等主流AI模型,提供直觀的操作界面,適合不同層次的用戶。
詳情鏈接:https://github.com/nanobrowser/nanobrowser
8、Luma AI 開源的圖像預(yù)訓(xùn)練技術(shù)IMM實(shí)現(xiàn)圖像生成十倍提速
Luma AI 最近開源的 Inductive Moment Matching (IMM) 技術(shù),顯著提升了圖像生成的速度和質(zhì)量。通過創(chuàng)新的預(yù)訓(xùn)練算法,IMM 能夠在推理階段實(shí)現(xiàn)靈活跳躍,減少生成步驟,從而突破了生成式預(yù)訓(xùn)練的瓶頸。實(shí)驗(yàn)結(jié)果表明,IMM 在多個(gè)數(shù)據(jù)集上展現(xiàn)了卓越的性能,標(biāo)志著多模態(tài)基礎(chǔ)模型的新未來。
【AiBase提要:】
? IMM 技術(shù)通過反向設(shè)計(jì)預(yù)訓(xùn)練算法,顯著提升推理效率。
?? 在 ImageNet 和 CIFAR-10數(shù)據(jù)集上,IMM 實(shí)現(xiàn)了前所未有的高質(zhì)量生成。
?? IMM 訓(xùn)練穩(wěn)定性強(qiáng),適應(yīng)性好,突破了傳統(tǒng)模型的限制。
詳情鏈接:https://github.com/lumalabs/imm
9、原字節(jié)跳動(dòng)AI高管駱怡航加入生數(shù)科技任CEO 推進(jìn)AI視頻生成商業(yè)化
駱怡航的加入標(biāo)志著生數(shù)科技在AI視頻生成領(lǐng)域邁向了新的階段。他的豐富經(jīng)驗(yàn)和技術(shù)背景將有助于公司在多模態(tài)技術(shù)方面的進(jìn)一步發(fā)展,尤其是在視頻生成的商業(yè)化進(jìn)程中。生數(shù)科技的創(chuàng)始人朱軍與駱怡航的合作,預(yù)示著未來將推出更多創(chuàng)新產(chǎn)品,推動(dòng)整個(gè)行業(yè)的發(fā)展。
【AiBase提要:】
?? 駱怡航作為新任CEO,將全面負(fù)責(zé)生數(shù)科技的研發(fā)和商業(yè)化進(jìn)程。
?? 他在字節(jié)跳動(dòng)的成功經(jīng)驗(yàn),尤其是AI產(chǎn)品線的管理,為生數(shù)科技帶來了強(qiáng)大的技術(shù)支持。
?? 生數(shù)科技即將推出的Vidu2.0將大幅提升視頻生成效率,降低成本,推動(dòng)行業(yè)發(fā)展。
10、全國第二例判決AIGC版權(quán)案:法院確認(rèn)作者享有著作權(quán)
江蘇省蘇州市常熟市人民法院于3月7日宣判了一起備受矚目的AI生成內(nèi)容著作權(quán)糾紛案,標(biāo)志著江蘇省首例、全國第二例涉及AI生成內(nèi)容的著作權(quán)案件。法院確認(rèn)林某使用Midjourney軟件生成的圖片作品享有著作權(quán),并指出其創(chuàng)作過程具有獨(dú)創(chuàng)性,符合著作權(quán)法的保護(hù)要求。
【AiBase提要:】
?? 江蘇省首例AI著作權(quán)糾紛案宣判,法院確認(rèn)作者享有著作權(quán)。
??? 常熟市人民法院認(rèn)為,林某對(duì)作品的創(chuàng)作具有獨(dú)創(chuàng)性,構(gòu)成著作權(quán)保護(hù)。
?? 法院判決侵權(quán)方公開道歉并賠償1萬元,未提出上訴,判決生效。
11、重生之我在小紅書給AI當(dāng)老板 元寶動(dòng)不動(dòng)崩潰,DeepSeek天天摸魚
在小紅書上,網(wǎng)友們化身AI公司的“霸道總裁”,在群聊中調(diào)侃和指揮各種AI模型,展現(xiàn)出一場幽默的AI職場鬧劇。起初由網(wǎng)友Komorebi發(fā)起,隨后引發(fā)廣泛參與,大家分享了與AI打工仔的搞笑互動(dòng)。盡管目前的BotGroup平臺(tái)功能尚顯簡陋,但其新奇的玩法和AI的擬人化表現(xiàn)讓人忍俊不禁,成為社交媒體的新熱點(diǎn)。
【AiBase提要:】
?? 網(wǎng)友們?cè)谛〖t書上化身AI公司的“霸道總裁”,調(diào)侃和指揮AI模型,形成一場幽默的職場鬧劇。
?? BotGroup網(wǎng)頁應(yīng)用讓不同AI模型進(jìn)入同一群聊,用戶可以與AI互動(dòng)并參與各種游戲,體驗(yàn)當(dāng)老板的樂趣。
?? 盡管功能簡陋,AI員工們的搞笑表現(xiàn)和互動(dòng)仍然吸引了大量網(wǎng)友參與,成為社交媒體的新熱點(diǎn)。
12、Domo AI 發(fā)布 i2v 模型升級(jí):穩(wěn)定性與提示詞理解能力顯著提升
Domo AI 最近對(duì)其圖像到視頻(i2v)模型進(jìn)行了重大升級(jí),提升了模型的穩(wěn)定性和生成速度,同時(shí)增強(qiáng)了對(duì)用戶提示詞的理解能力。新模型可更準(zhǔn)確地將靜態(tài)圖像轉(zhuǎn)化為流暢動(dòng)畫,并支持多種風(fēng)格轉(zhuǎn)換,極大提高了內(nèi)容創(chuàng)作者的創(chuàng)作效率和靈活性。
【AiBase 提要:】
?? 新版 i2v 模型在生成速度和穩(wěn)定性上有顯著提高。
?? 用戶可通過模型快速實(shí)現(xiàn)多種風(fēng)格轉(zhuǎn)換,提升創(chuàng)作便利性。
?? 模型對(duì)用戶提示詞的理解能力顯著增強(qiáng),確保結(jié)果高度一致。
(舉報(bào))