无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

甲骨易AI研究院推出中文大語言模型評(píng)測(cè)集合-LucyEval，讓智能有跡可循！

2023-08-31 13:51 · 稿源：站長(zhǎng)之家用戶

夕小瑤科技說分享

Lucy，是距今 320 萬年最早的人類祖先，也是被輸入某種“物質(zhì)”后大腦開發(fā)到高的超智能人類，能感知宇宙萬物，擁有人類所有知識(shí)。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。

隨著大語言模型不斷調(diào)優(yōu)，大模型擁有了更優(yōu)越的理解人類話語、指令并且生成類似人類語言文本的能力。機(jī)器和人類終歸不同，如何最快速地判斷機(jī)器是否能正確理解人類的知識(shí)和語言，成為我們共同關(guān)注的問題。

由此，甲骨易AI研究院推出了中文大語言模型成熟度評(píng)測(cè)——LucyEval，能夠通過對(duì)模型各方面能力的客觀測(cè)試，找到模型的不足，幫助設(shè)計(jì)者和工程師更加準(zhǔn)確地調(diào)整、訓(xùn)練模型，助力大模型不斷邁向更智能的未來。

Lucy的每一個(gè)字母背后都代表了不同的意義，包含著甲骨易AI研究院設(shè)計(jì)LucyEval時(shí)所考量的維度和堅(jiān)持的理念。

L - Linguistic Fundamentals: 基礎(chǔ)理解能力
U - Utilization of Knowledge: 知識(shí)運(yùn)用能力
C - Cognitive Reasoning: 推理能力
Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含義：

Linguistic Fundamentals (基礎(chǔ)理解能力) ：描述模型對(duì)基礎(chǔ)語法、詞匯和句子結(jié)構(gòu)的理解程度。

Utilization of Knowledge (知識(shí)運(yùn)用能力)：衡量模型在回答問題或生成文本時(shí)如何運(yùn)用其內(nèi)嵌的知識(shí)。

Cognitive Reasoning (推理能力)：評(píng)價(jià)模型是否能從給定的信息中進(jìn)行邏輯推斷或解決復(fù)雜問題。

Yield of Specialized Outputs (特殊生成能力）：測(cè)試模型在生成特定類型或風(fēng)格的文本（例如詩歌、代碼或?qū)I(yè)文章）時(shí)的效能。

目前，LucyEval已發(fā)布如下兩項(xiàng)測(cè)試集。

大規(guī)模多任務(wù)中文理解能力測(cè)試?Massive Multitask Chinese Understanding

2023 年 4 月 25 日，針對(duì)中文大模型理解能力測(cè)試缺失且推出高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集迫在眉睫這一現(xiàn)狀，甲骨易AI研究院率先發(fā)布（首發(fā)）了一套大規(guī)模多任務(wù)中文大模型理解能力測(cè)試。

測(cè)試所包含的題目來自醫(yī)療、法律、心理學(xué)和教育四個(gè)科目的 11900 個(gè)問題，包含單項(xiàng)選擇和多項(xiàng)選擇題，目的旨在使測(cè)試過程中模型更接近人類考試的方式，覆蓋學(xué)科面廣，專業(yè)知識(shí)難度高，適合用來評(píng)估大模型的綜合理解能力。

中文大模型多學(xué)科生成能力自動(dòng)化評(píng)測(cè)基準(zhǔn)?Chinese Generation Evaluation

目前領(lǐng)域內(nèi)的評(píng)測(cè)大多都只針對(duì)模型的中文理解能力，通過選擇題由模型直接生成答案，或者提取模型對(duì)各個(gè)答案選項(xiàng)的輸出概率。從評(píng)測(cè)大模型的生成能力的角度，這些評(píng)測(cè)基準(zhǔn)就存在很大的局限性。

在率先發(fā)布國內(nèi)首個(gè)中文大模型理解能力測(cè)試后，甲骨易AI研究院于 8 月 9 日正式發(fā)布一套自動(dòng)測(cè)評(píng)中文大模型多學(xué)科生成能力的評(píng)測(cè)基準(zhǔn)。

基準(zhǔn)包含 11000 道題目，涵蓋科技工程、人文與社會(huì)科學(xué)、數(shù)學(xué)計(jì)算、醫(yī)師資格考試、司法考試、注冊(cè)會(huì)計(jì)師考試等科目下的 55 個(gè)子科目。題型分為名詞解釋、簡(jiǎn)答題和計(jì)算題三種類型。同時(shí)，甲骨易AI研究院還設(shè)計(jì)了一套復(fù)合打分方式Gscore，使評(píng)分過程更加合理、科學(xué)。

甲骨易AI研究院使用本評(píng)測(cè)基準(zhǔn)對(duì)以下模型進(jìn)行了zero-shot測(cè)試，包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。

本次受測(cè)中文大語言模型

從所有模型在六大類科目的平均分來看，GPT- 4 取得最高分41.12，比最低分32. 28 高出8. 84 分。

本次受測(cè)中文大語言模型平均得分

未來，甲骨易AI研究院將矢志不移地為提升中文大語言模型能力為目標(biāo)，持續(xù)研究適應(yīng)其發(fā)展的測(cè)試集，期待與同樣關(guān)注大語言模型發(fā)展的業(yè)界同仁攜手共建。

（推廣）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長(zhǎng)傳媒平臺(tái)用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)，對(duì)本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任，相關(guān)信息僅供參考。站長(zhǎng)之家將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，可及時(shí)向站長(zhǎng)之家提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明（點(diǎn)擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述法律文件后，將會(huì)依法依規(guī)核實(shí)信息，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

相關(guān)推薦

關(guān)鍵詞：

時(shí)空壺接入大語言模型，跨語言溝通已成翻譯的藝術(shù)

在當(dāng)今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判，到文化交流中的思想碰撞，高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動(dòng)全球交流合作邁向新的高度，真正實(shí)現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設(shè)備
黃仁勛：中國是一個(gè)意志堅(jiān)定、能力超群的國家 AI研究者一半是中國人

快科技5月2日消息，對(duì)于中國，英偉達(dá)CEO黃仁勛直言，這是一個(gè)強(qiáng)大的國家，想要速勝基本不可能。中國是一個(gè)意志堅(jiān)定、能力超群的國家，全球一半的人工智能領(lǐng)域研究人員都是中國人（且美國所有AI實(shí)驗(yàn)室均有大量中國研究人員參與），而人工智能領(lǐng)域的競(jìng)爭(zhēng)是一場(chǎng)持久戰(zhàn)”，無法速勝。 ”在黃仁勛看來，中美在人工智能（AI）發(fā)展領(lǐng)域的水平非常接近。事實(shí)上，目前在人工智能上，中國高校在AI人才培養(yǎng)方面表現(xiàn)突出。美國保爾森基金會(huì)旗下智庫Macro Polo的研究顯示，全球頂尖AI研究人員中，47%本科畢業(yè)于中國高校，遠(yuǎn)超美國的18%。清華大學(xué)、中國

?人工智能 ?AI發(fā)展 ?中美競(jìng)爭(zhēng)
阿丘科技李嘉悅：大模型驅(qū)動(dòng)的AI檢測(cè)范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

3月28日，由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場(chǎng)，圍繞“大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題，發(fā)表了精彩演講?！苯衲辏谶@個(gè)快速變化的時(shí)代，我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革，不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

?機(jī)器視覺 ?AI檢測(cè) ?工業(yè)應(yīng)用
AI大模型+全渠道整合：容聯(lián)七陌智能客服賦能制造業(yè)升級(jí)

自《中國制造2025》戰(zhàn)略提出以來，制造業(yè)的智能化發(fā)展進(jìn)入快車道，但行業(yè)仍面臨勞動(dòng)力成本上升、供應(yīng)鏈不透明、客戶需求碎片化等挑戰(zhàn)。企業(yè)亟需通過技術(shù)手段實(shí)現(xiàn)降本增效，而智能化客戶服務(wù)成為關(guān)鍵突破口。與此同時(shí)，客服行業(yè)正經(jīng)歷顛覆性變革。傳統(tǒng)客服依賴人工響應(yīng)，存在效率低、成本高、數(shù)據(jù)割裂等痛點(diǎn)。隨著AI大模型技術(shù)成熟，全渠道整合、智能客服機(jī)器人?

?智能客服 ?AI大模型 ?制造業(yè)智能化
亞馬遜推出AI語音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

亞馬遜正式推出新一代生成式AI語音模型NovaSonic，標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出，在速度、語音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上，已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步，未來還將推出支持多模態(tài)理解的AI模型，涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

?亞馬遜 ?生成式AI ?Nova
薦或超過人類平均水平！AI 大模型將如何改造智能客服？

本文探討了AI大模型如何推動(dòng)智能客服升級(jí)。每日互動(dòng)產(chǎn)品總監(jiān)高志成指出，傳統(tǒng)智能客服存在"答非所問"問題，主要受限于算法覆蓋不足、相似性匹配機(jī)制和逐句識(shí)別方式。而大語言模型能基于上下文深度理解，精準(zhǔn)把握客戶意圖，實(shí)現(xiàn)"所答即所問"的基本要求。未來智能客服將朝五個(gè)方向升級(jí)：1）精準(zhǔn)理解應(yīng)答；2）更自然的溝通方式；3）主動(dòng)挖掘需求和銷售轉(zhuǎn)化；4）自動(dòng)構(gòu)建決策模型；5）實(shí)現(xiàn)營銷服務(wù)一體化應(yīng)用。高志成認(rèn)為，隨著AI技術(shù)發(fā)展，智能客服水平將超越人工客服平均水平，不僅能處理售前咨詢，還能部分解決售后問題。企業(yè)需構(gòu)建完善的知識(shí)庫體系，將商品信息、活動(dòng)信息等單獨(dú)做成知識(shí)庫，通過數(shù)據(jù)標(biāo)注構(gòu)建更立體的用戶畫像。最終，智能客服將向"售前+售后"全能型發(fā)展，承擔(dān)更大責(zé)任。

?智能客服 ?AI大模型 ?客服升級(jí)
?海信重磅發(fā)布“云信·通途交通大模型”：以AI之力，解鎖智能交通無限可能

4 月 23 日，第十五屆中國國際道路交通安全產(chǎn)品博覽會(huì)在武漢國際博覽中心盛大啟幕。海信網(wǎng)絡(luò)科技公司重磅發(fā)布“海信云信·通途交通大模型”，標(biāo)志著其在智慧交通領(lǐng)域的AI技術(shù)創(chuàng)新應(yīng)用邁入了全新階段。該交通大模型是海信深度融合二十余年交通行業(yè)經(jīng)驗(yàn)與前沿AI技術(shù)的產(chǎn)物?；诤Ａ拷煌▽I(yè)數(shù)據(jù)與多模態(tài)感知能力，構(gòu)建“問答-分析-決策”一體化系統(tǒng)，通過AI指揮官

?交通安全 ?智慧交通 ?AI技術(shù)
誠意滿滿！小米為SU7 Ultra Club首批會(huì)員推出限定禮盒

小米汽車這次真是誠意滿滿！SU7 Ultra Club首批會(huì)員收到了一份專屬的限定禮盒。里面的東西可不少：SU7 Ultra的1:43合金車模，做工精致，完全按照真車比例打造；除此之外，還有紐北成績(jī)限定車牌和冰箱貼，再加上專屬會(huì)員卡，這身份感瞬間拉滿。100%; word-break: break-word;"據(jù)悉，SU7 Ultra Club會(huì)員俱樂部是2月27日成立的，年費(fèi)3999元，首批限量2000人，入會(huì)就能拿到6
九為健康聯(lián)合華為云發(fā)布神農(nóng)中醫(yī)大模型智能體，解碼如何用大模型重構(gòu)“望聞問切”

2025 年 4 月 11 日，在華為云生態(tài)大會(huì)上，浙江九為健康科技股份有限公司（以下簡(jiǎn)稱"九為健康"）正式發(fā)布基于華為云盤古大模型的"九為神農(nóng)中醫(yī)大模型智能體"。該解決方案依托AI技術(shù)，系統(tǒng)性攻克中醫(yī)藥研發(fā)周期長(zhǎng)、作用機(jī)制解析困難、個(gè)性化方案制定復(fù)雜等產(chǎn)業(yè)難題，通過智能化手段推動(dòng)中醫(yī)藥現(xiàn)代化進(jìn)程，為醫(yī)藥全產(chǎn)業(yè)鏈提供覆蓋研發(fā)、診療及健康管理的全流程智能服?
末日時(shí)間表來了！前OpenAI研究員76頁硬核推演：2027年ASI接管世界，人類成NPC

【新智元導(dǎo)讀】前OpenAI研究員DanielKokotajlo團(tuán)隊(duì)發(fā)布了「AI2027」預(yù)測(cè)報(bào)告，描繪了一個(gè)超人AI崛起的未來:從2025年最貴AI誕生，到2027年自我進(jìn)化的Agent-5滲透政府決策，人類可能在不知不覺中交出主導(dǎo)權(quán)。2027年，AI究竟會(huì)如何接管人類?今天，前OpenAI研究員和同事們發(fā)出一篇「AI2027」報(bào)告，長(zhǎng)達(dá)76頁，做出了種種硬核預(yù)測(cè)。如果強(qiáng)大的AI真的即將來臨，我們都需要開始想象一些很奇怪?

?AI預(yù)測(cè) ?超人AI ?人工智能發(fā)展

熱文

3 天
7天

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM