无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 傳媒 > 關(guān)鍵詞  > 正文

    甲骨易AI研究院推出中文大語言模型評(píng)測(cè)集合-LucyEval,讓智能有跡可循!

    2023-08-31 13:51 · 稿源: 站長(zhǎng)之家用戶

    夕小瑤科技說 分享

    Lucy,是距今 320 萬年最早的人類祖先,也是被輸入某種“物質(zhì)”后大腦開發(fā)到高的超智能人類,能感知宇宙萬物,擁有人類所有知識(shí)。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。

    隨著大語言模型不斷調(diào)優(yōu),大模型擁有了更優(yōu)越的理解人類話語、指令并且生成類似人類語言文本的能力。機(jī)器和人類終歸不同,如何最快速地判斷機(jī)器是否能正確理解人類的知識(shí)和語言,成為我們共同關(guān)注的問題。

    由此,甲骨易AI研究院推出了中文大語言模型成熟度評(píng)測(cè)——LucyEval,能夠通過對(duì)模型各方面能力的客觀測(cè)試,找到模型的不足,幫助設(shè)計(jì)者和工程師更加準(zhǔn)確地調(diào)整、訓(xùn)練模型,助力大模型不斷邁向更智能的未來。

    Lucy的每一個(gè)字母背后都代表了不同的意義,包含著甲骨易AI研究院設(shè)計(jì)LucyEval時(shí)所考量的維度和堅(jiān)持的理念。

    • L - Linguistic Fundamentals: 基礎(chǔ)理解能力

    • U - Utilization of Knowledge: 知識(shí)運(yùn)用能力

    • C - Cognitive Reasoning: 推理能力

    • Y - Yield of Specialized Outputs: 特殊生成能力


    "Lucy" 包含以下含義:

    Linguistic Fundamentals (基礎(chǔ)理解能力) :描述模型對(duì)基礎(chǔ)語法、詞匯和句子結(jié)構(gòu)的理解程度。

    Utilization of Knowledge (知識(shí)運(yùn)用能力):衡量模型在回答問題或生成文本時(shí)如何運(yùn)用其內(nèi)嵌的知識(shí)。

    Cognitive Reasoning (推理能力):評(píng)價(jià)模型是否能從給定的信息中進(jìn)行邏輯推斷或解決復(fù)雜問題。

    Yield of Specialized Outputs (特殊生成能力):測(cè)試模型在生成特定類型或風(fēng)格的文本(例如詩歌、代碼或?qū)I(yè)文章)時(shí)的效能。

    目前,LucyEval已發(fā)布如下兩項(xiàng)測(cè)試集。

    大規(guī)模多任務(wù)中文理解能力測(cè)試?Massive Multitask Chinese Understanding

    2023 年 4 月 25 日,針對(duì)中文大模型理解能力測(cè)試缺失且推出高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集迫在眉睫這一現(xiàn)狀,甲骨易AI研究院率先發(fā)布(首 發(fā))了一套大規(guī)模多任務(wù)中文大模型理解能力測(cè)試。

    測(cè)試所包含的題目來自醫(yī)療、法律、心理學(xué)和教育四個(gè)科目的 11900 個(gè)問題,包含單項(xiàng)選擇和多項(xiàng)選擇題,目的旨在使測(cè)試過程中模型更接近人類考試的方式,覆蓋學(xué)科面廣,專業(yè)知識(shí)難度高,適合用來評(píng)估大模型的綜合理解能力。

    中文大模型多學(xué)科生成能力自動(dòng)化評(píng)測(cè)基準(zhǔn)?Chinese Generation Evaluation

    目前領(lǐng)域內(nèi)的評(píng)測(cè)大多都只針對(duì)模型的中文理解能力,通過選擇題由模型直接生成答案,或者提取模型對(duì)各個(gè)答案選項(xiàng)的輸出概率。從評(píng)測(cè)大模型的生成能力的角度,這些評(píng)測(cè)基準(zhǔn)就存在很大的局限性。

    在率先發(fā)布國內(nèi)首 個(gè)中文大模型理解能力測(cè)試后,甲骨易AI研究院于 8 月 9 日正式發(fā)布一套自動(dòng)測(cè)評(píng)中文大模型多學(xué)科生成能力的評(píng)測(cè)基準(zhǔn)。

    基準(zhǔn)包含 11000 道題目,涵蓋科技工程、人文與社會(huì)科學(xué)、數(shù)學(xué)計(jì)算、醫(yī)師資格考試、司法考試、注冊(cè)會(huì)計(jì)師考試等科目下的 55 個(gè)子科目。題型分為名詞解釋、簡(jiǎn)答題和計(jì)算題三種類型。同時(shí),甲骨易AI研究院還設(shè)計(jì)了一套復(fù)合打分方式Gscore,使評(píng)分過程更加合理、科學(xué)。

    甲骨易AI研究院使用本評(píng)測(cè)基準(zhǔn)對(duì)以下模型進(jìn)行了zero-shot測(cè)試,包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。

    本次受測(cè)中文大語言模型

    從所有模型在六大類科目的平均分來看,GPT- 4 取得最 高分41.12,比最 低分32. 28 高出8. 84 分。

    本次受測(cè)中文大語言模型平均得分

    未來,甲骨易AI研究院將矢志不移地為提升中文大語言模型能力為目標(biāo),持續(xù)研究適應(yīng)其發(fā)展的測(cè)試集,期待與同樣關(guān)注大語言模型發(fā)展的業(yè)界同仁攜手共建。

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長(zhǎng)傳媒平臺(tái)用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù),對(duì)本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長(zhǎng)之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),可及時(shí)向站長(zhǎng)之家提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明(點(diǎn)擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會(huì)依法依規(guī)核實(shí)信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦
    • 時(shí)空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時(shí)空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動(dòng)全球交流合作邁向新的高度,真正實(shí)現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 黃仁勛:中國是一個(gè)意志堅(jiān)定、能力超群的國家 AI研究者一半是中國人

      快科技5月2日消息,對(duì)于中國,英偉達(dá)CEO黃仁勛直言,這是一個(gè)強(qiáng)大的國家,想要速勝基本不可能。中國是一個(gè)意志堅(jiān)定、能力超群的國家,全球一半的人工智能領(lǐng)域研究人員都是中國人(且美國所有AI實(shí)驗(yàn)室均有大量中國研究人員參與),而人工智能領(lǐng)域的競(jìng)爭(zhēng)是一場(chǎng)持久戰(zhàn)”,無法速勝。 ”在黃仁勛看來,中美在人工智能(AI)發(fā)展領(lǐng)域的水平非常接近。事實(shí)上,目前在人工智能上,中國高校在AI人才培養(yǎng)方面表現(xiàn)突出。美國保爾森基金會(huì)旗下智庫Macro Polo的研究顯示,全球頂尖AI研究人員中,47%本科畢業(yè)于中國高校,遠(yuǎn)超美國的18%。清華大學(xué)、中國

    • 阿丘科技李嘉悅:大模型驅(qū)動(dòng)的AI檢測(cè)范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

      3月28日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會(huì)現(xiàn)場(chǎng),圍繞“大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講?!苯衲辏谶@個(gè)快速變化的時(shí)代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會(huì)用大模型的將會(huì)被善用大模型的人淘汰。

    • AI大模型+全渠道整:容聯(lián)七陌智能客服賦能制造業(yè)升級(jí)

      自《中國制造2025》戰(zhàn)略提出以來,制造業(yè)的智能化發(fā)展進(jìn)入快車道,但行業(yè)仍面臨勞動(dòng)力成本上升、供應(yīng)鏈不透明、客戶需求碎片化等挑戰(zhàn)。企業(yè)亟需通過技術(shù)手段實(shí)現(xiàn)降本增效,而智能化客戶服務(wù)成為關(guān)鍵突破口。與此同時(shí),客服行業(yè)正經(jīng)歷顛覆性變革。傳統(tǒng)客服依賴人工響應(yīng),存在效率低、成本高、數(shù)據(jù)割裂等痛點(diǎn)。隨著AI大模型技術(shù)成熟,全渠道整合、智能客服機(jī)器人?

    • 亞馬遜推出AI語音模型Nova Sonic:價(jià)格比GPT-4o便宜80%

      亞馬遜正式推出新一代生成式AI語音模型NovaSonic,標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出,在速度、語音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步,未來還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

    • 或超過人類平均水平!AI模型將如何改造智能客服?

      本文探討了AI大模型如何推動(dòng)智能客服升級(jí)。每日互動(dòng)產(chǎn)品總監(jiān)高志成指出,傳統(tǒng)智能客服存在"答非所問"問題,主要受限于算法覆蓋不足、相似性匹配機(jī)制和逐句識(shí)別方式。而大語言模型能基于上下文深度理解,精準(zhǔn)把握客戶意圖,實(shí)現(xiàn)"所答即所問"的基本要求。未來智能客服將朝五個(gè)方向升級(jí):1)精準(zhǔn)理解應(yīng)答;2)更自然的溝通方式;3)主動(dòng)挖掘需求和銷售轉(zhuǎn)化;4)自動(dòng)構(gòu)建決策模型;5)實(shí)現(xiàn)營銷服務(wù)一體化應(yīng)用。高志成認(rèn)為,隨著AI技術(shù)發(fā)展,智能客服水平將超越人工客服平均水平,不僅能處理售前咨詢,還能部分解決售后問題。企業(yè)需構(gòu)建完善的知識(shí)庫體系,將商品信息、活動(dòng)信息等單獨(dú)做成知識(shí)庫,通過數(shù)據(jù)標(biāo)注構(gòu)建更立體的用戶畫像。最終,智能客服將向"售前+售后"全能型發(fā)展,承擔(dān)更大責(zé)任。

    • ?海信重磅發(fā)布“云信·通途交通大模型”: 以AI之力,解鎖智能交通無限可能

      4 月 23 日, 第十五屆中國國際道路交通安全產(chǎn)品博覽會(huì)在武漢國際博覽中心盛大啟幕。海信網(wǎng)絡(luò)科技公司重磅發(fā)布“海信云信·通途交通大模型”, 標(biāo)志著其在智慧交通領(lǐng)域的AI技術(shù)創(chuàng)新應(yīng)用邁入了全新階段。 該交通大模型是海信深度融合二十余年交通行業(yè)經(jīng)驗(yàn)與前沿AI技術(shù)的產(chǎn)物?;诤A拷煌▽I(yè)數(shù)據(jù)與多模態(tài)感知能力,構(gòu)建“問答-分析-決策”一體化系統(tǒng),通過AI指揮官

    • 誠意滿滿!小米為SU7 Ultra Club首批會(huì)員推出限定禮盒

      小米汽車這次真是誠意滿滿!SU7 Ultra Club首批會(huì)員收到了一份專屬的限定禮盒。里面的東西可不少:SU7 Ultra的1:43合金車模,做工精致,完全按照真車比例打造;除此之外,還有紐北成績(jī)限定車牌和冰箱貼,再加上專屬會(huì)員卡,這身份感瞬間拉滿。100%; word-break: break-word;"據(jù)悉,SU7 Ultra Club會(huì)員俱樂部是2月27日成立的,年費(fèi)3999元,首批限量2000人,入會(huì)就能拿到6

    • 九為健康聯(lián)華為云發(fā)布神農(nóng)中醫(yī)大模型智能體,解碼如何用大模型重構(gòu)“望聞問切”

      2025 年 4 月 11 日,在華為云生態(tài)大會(huì)上,浙江九為健康科技股份有限公司(以下簡(jiǎn)稱"九為健康")正式發(fā)布基于華為云盤古大模型的"九為神農(nóng)中醫(yī)大模型智能體"。該解決方案依托AI技術(shù),系統(tǒng)性攻克中醫(yī)藥研發(fā)周期長(zhǎng)、作用機(jī)制解析困難、個(gè)性化方案制定復(fù)雜等產(chǎn)業(yè)難題,通過智能化手段推動(dòng)中醫(yī)藥現(xiàn)代化進(jìn)程,為醫(yī)藥全產(chǎn)業(yè)鏈提供覆蓋研發(fā)、診療及健康管理的全流程智能服?

    • 末日時(shí)間表來了!前OpenAI研究員76頁硬核推演:2027年ASI接管世界,人類成NPC

      【新智元導(dǎo)讀】前OpenAI研究員DanielKokotajlo團(tuán)隊(duì)發(fā)布了「AI2027」預(yù)測(cè)報(bào)告,描繪了一個(gè)超人AI崛起的未來:從2025年最貴AI誕生,到2027年自我進(jìn)化的Agent-5滲透政府決策,人類可能在不知不覺中交出主導(dǎo)權(quán)。2027年,AI究竟會(huì)如何接管人類?今天,前OpenAI研究員和同事們發(fā)出一篇「AI2027」報(bào)告,長(zhǎng)達(dá)76頁,做出了種種硬核預(yù)測(cè)。如果強(qiáng)大的AI真的即將來臨,我們都需要開始想象一些很奇怪?

    熱文

    • 3 天
    • 7天