歡迎來到【AI視野】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/
??????AI應(yīng)用
OpenAI不服GPT-4被Bard反超 推出最新模型GPT-4-0125-preview
【AiBase提要:】
?? Bard搭載了新版大模型Gemini Pro-scale
?? 網(wǎng)友質(zhì)疑混合在線和離線大模型
?? 模型GPT-4-0125-preview已入場競技場
Finalframe即將推出適用于AI生成視頻的剪輯界面
要點(diǎn):
? Finalframe支持文本轉(zhuǎn)視頻和圖像轉(zhuǎn)視頻
? 支持創(chuàng)建、打開、保存項(xiàng)目,以及導(dǎo)出完整時間軸
? 即將推出的新功能讓視頻剪輯方式更直觀方便
官網(wǎng)地址:https://top.aibase.com/tool/finalframe
WhisperKit開源!可在iPhone和Mac流暢體驗(yàn)實(shí)時語音轉(zhuǎn)錄
【AiBase提要:】
??Argmax公司將WhisperKit作為首個項(xiàng)目。
??WhisperKit以MIT許可證的形式開源。
??WhisperKit實(shí)現(xiàn)了實(shí)時語音轉(zhuǎn)文本。
項(xiàng)目入口:https://top.aibase.com/tool/whisperkit
蘋果iOS17.4更新:播客應(yīng)用新增轉(zhuǎn)錄功能
【AiBase提要:】
? 轉(zhuǎn)錄功能自動生成播客節(jié)目文字稿
? 初期支持英語、法語、德語和西班牙語
? 轉(zhuǎn)錄文本不包含動態(tài)插入音頻和音樂歌詞
Mistral-Medium意外泄露 神秘新模型“Miqu”擊敗GPT-4之外的所有大模型
【AiBase提要:】
?? Mistral-Medium模型意外泄露,引發(fā)AI社區(qū)熱議,與名為"Miqu"的新模型有關(guān)。
?? Miqu在EQ-Bench基準(zhǔn)上表現(xiàn)強(qiáng)大,與Mistral-Medium相近,但發(fā)布者身份神秘。
?? Miqu身份存疑,是否Mistral-Medium早期版本或Llama70B。
開源地址:https://top.aibase.com/tool/miqu-1-70b
Vary-toy:具有高級視覺詞匯視覺語音模型
【AiBase提要:】
?? 挑戰(zhàn)與潛力: 大型視覺語言模型在計(jì)算機(jī)視覺和自然語言處理任務(wù)表現(xiàn)出色,但在圖像感知能力方面仍有潛力待發(fā)。
?? 模型結(jié)構(gòu): LVLMs采用圖像標(biāo)記作為前綴或交叉注意力進(jìn)行特征融合,效率受視覺詞匯網(wǎng)絡(luò)的限制。
?? 解決方案: MEGVII Technology的研究人員提出Vary-toy,用于提高LVLMs的圖像感知能力。
項(xiàng)目入口:https://top.aibase.com/tool/vary-toy
阿里巴巴多模態(tài)模型Qwen-VL升級更新 推出這2個版本
【AiBase提要:】
? Qwen-VL-Plus和Qwen-VL-Max版本推出
? 在多模態(tài)任務(wù)上與GeminiUltra和GPT-4V相當(dāng)
? Qwen-VL-Max在視覺推理方面展現(xiàn)卓越能力
試用地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max
AI實(shí)時對話系統(tǒng)WhisperFusion:集成大模型,與AI無縫語音對話
【AiBase提要:】
1. ??? 實(shí)時語音轉(zhuǎn)文本:利用OpenAI WhisperLive實(shí)現(xiàn)即時將口語轉(zhuǎn)換為文本。
2. ?? 大型語言模型整合:集成Mistral大型語言模型,提升對轉(zhuǎn)錄文本的理解和上下文把握。
3. ?? TensorRT優(yōu)化:LLM和Whisper均經(jīng)過TensorRT引擎優(yōu)化,確保高性能和低延遲處理。
??????AI新鮮事
Midjourney使用1.6萬名藝術(shù)家數(shù)據(jù)庫進(jìn)行訓(xùn)練遭批判
【AiBase提要:】
?? 藝術(shù)家反應(yīng):藝術(shù)家指責(zé)公司侵權(quán)
?? 法律訴訟:涉及多方提起集體訴訟
?? 藝術(shù)家作品未經(jīng)許可被用于訓(xùn)練AI程序
Open AI否認(rèn)報(bào)告稱ChatGPT泄露了用戶密碼
【AiBase提要:】
?? OpenAI否認(rèn)ChatGPT泄露密碼
?? Ars Technica報(bào)道泄露工單及網(wǎng)站登錄憑證
?? ChatGPT遭指控為漏洞百出
AI寫真項(xiàng)目InstantID在GitHub引爆熱潮
【AiBase提要:】
? AI寫真項(xiàng)目InstantID在全網(wǎng)刷屏
? 項(xiàng)目背后是來自小紅書的 InstantX 團(tuán)隊(duì)
? InstantID出圖速度快,不需模型訓(xùn)練,支持多種風(fēng)格
項(xiàng)目地址:https://top.aibase.com/tool/instantid
微軟等公司財(cái)報(bào)低于預(yù)期 美股AI相關(guān)巨頭市值一夜蒸發(fā)1900億美元
【AiBase提要:】
?? 微軟、Alphabet和超微公布季度業(yè)績低于預(yù)期。
?? 與AI相關(guān)的公司市值一夜蒸發(fā)1900億美元。
?? 英偉達(dá)的股價(jià)在1月份上漲了27%,但在盤后交易中也回落了2%以上。
美國點(diǎn)評網(wǎng)站Yelp將加強(qiáng)AI功能 部分功能已在iOS版上線
【AiBase提要:】
?? Yelp的新功能包括AI生成的摘要和首頁重新設(shè)計(jì)
?? AI生成的摘要將簡潔地介紹商家的特色和服務(wù)
?? 摘要功能已在iOS上推出,未來會擴(kuò)展到Android和網(wǎng)頁
MIT最新研究:純文本模型也能訓(xùn)練出視覺表征 用代碼就能作畫
【AiBase提要:】
??? 純文本模型訓(xùn)練視覺概念表征的新可能性
?? 語言模型無法直接處理像素形式的視覺信息
?? 語言模型在生成復(fù)雜場景方面表現(xiàn)出色
論文地址:https://arxiv.org/pdf/2401.01862.pdf
首個圖像序列基準(zhǔn)測試Mementos開源 GPT-4V/Gemini竟看不懂漫畫!
【AiBase提要:】
?? Mementos測試的關(guān)鍵目的是測試多模態(tài)大語言模型的推理能力。
?? 對于GPT-4V和Gemini等模型,在圖像序列推理中表現(xiàn)不足20%。
?? Mementos測試發(fā)現(xiàn)模型容易產(chǎn)生對象幻覺和行為幻覺。
項(xiàng)目地址:https://mementos-bench.github.io/
200GB!AutoMathText:專注數(shù)學(xué)文本的超大規(guī)模數(shù)據(jù)集
【AiBase提要:】
1. AutoMathText是一個龐大的數(shù)學(xué)文本數(shù)據(jù)集,總體規(guī)模達(dá)到200GB,匯聚了來自多個來源的數(shù)據(jù),適用于多種應(yīng)用場景。
2. 數(shù)據(jù)集包含10億到100億的數(shù)據(jù)量級,提供豐富的資源供大規(guī)模模型訓(xùn)練。
3. AutoMathText提供了詳細(xì)的領(lǐng)域標(biāo)簽,涵蓋數(shù)學(xué)推理、推理、微調(diào)等方面。
高效機(jī)器人學(xué)習(xí)軟件SERL25分鐘學(xué)會一個任務(wù)
【AiBase提要:】
? 機(jī)器人學(xué)習(xí)軟件SERL通過更少的嘗試快速學(xué)會新任務(wù)
? SERL可執(zhí)行多種復(fù)雜任務(wù),如組裝電路板、布線或移動物體
? 這一軟件工具包已經(jīng)教會機(jī)器人執(zhí)行多種任務(wù),包括組裝電路板、布線或移動物體到新位置
項(xiàng)目地址:https://top.aibase.com/tool/serl
(舉報(bào))