香港中文大學(xué)發(fā)布全面中文大語言模型評測CLEVA

2023-10-17 09:29 · 稿源：站長之家

核心要點:
香港中文大學(xué)的研究團隊發(fā)布了全面的中文大語言模型評測方法，已被EMNLP2023System Demonstrations錄取。
該評測方法包含31個任務(wù)和多種評測指標(biāo)，覆蓋了84個數(shù)據(jù)集，著重關(guān)注準(zhǔn)確性、魯棒性、公平性等多個維度。
評測方法還提供多樣的提示模版，降低數(shù)據(jù)污染風(fēng)險，以及提供清晰的操作界面，可供研究團隊使用和交互評測。

站長之家（ChinaZ.com）10月17日消息:香港中文大學(xué)的研究團隊最近發(fā)布了一項全面的中文大語言模型評測方法，這一方法已經(jīng)被EMNLP2023System Demonstrations錄取。這一評測方法名為CLEVA，是由香港中文大學(xué)計算機科學(xué)與工程學(xué)系的王歷偉助理教授領(lǐng)導(dǎo)的研究團隊開發(fā)的，與上海人工智能實驗室合作研究。

CLEVA的目標(biāo)是為中文大語言模型提供全面的評測，覆蓋多個任務(wù)和多個評測指標(biāo)，以更好地理解和評價這些模型的能力。

論文地址:https://arxiv.org/pdf/2308.04813.pdf

這一評測方法包含了31個任務(wù)，其中包括11個應(yīng)用評估和20個能力評測任務(wù)，共涵蓋了來自84個數(shù)據(jù)集的370，000多個中文測試樣本。這是過去同類工作中樣本數(shù)量最多的，為全面評測提供了更多的數(shù)據(jù)支持。

CLEVA不僅關(guān)注傳統(tǒng)的準(zhǔn)確性指標(biāo)，還引入了魯棒性、公平性、效率、校準(zhǔn)與不確定性、偏見與刻板印象以及毒性等多維度的評測指標(biāo)，以更全面地評價大語言模型的性能。

為了確保評測的可比性，CLEVA為每個評測任務(wù)準(zhǔn)備了一組多個提示模板，使所有模型都使用相同的提示模板進(jìn)行評測。這有助于公平比較模型能力，同時還可以分析模型對不同提示模板的敏感程度，為模型的下游應(yīng)用提供指導(dǎo)。

此外，CLEVA還采取了多種方法來降低數(shù)據(jù)污染的風(fēng)險，包括采用新數(shù)據(jù)和不斷更新的測試集。

這一全面的中文大語言模型評測方法旨在提供更可信的評測結(jié)果，為學(xué)術(shù)界和工業(yè)界提供更準(zhǔn)確的模型能力認(rèn)知。研究團隊已經(jīng)使用CLEVA評測了23個中文大模型，并計劃持續(xù)評測更多的模型。其他研究團隊也可以通過CLEVA網(wǎng)站提交和對接評測結(jié)果，從而促進(jìn)大模型能力的認(rèn)知和評測。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

CLEVA

時空壺接入大語言模型，跨語言溝通已成翻譯的藝術(shù)

在當(dāng)今全球化浪潮中，跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判，到文化交流中的思想碰撞，高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代，時空壺有望持續(xù)引領(lǐng)行業(yè)變革，推動全球交流合作邁向新的高度，真正實現(xiàn)跨越語言障礙，讓世界溝通無阻。

?跨語言溝通 ?AI ?翻譯設(shè)備
格創(chuàng)東智與香港大學(xué)共建工業(yè)AI聯(lián)合實驗室，推動香港成為全球工業(yè)AI創(chuàng)新樞紐

4 月 16 日，格創(chuàng)東智與香港大學(xué)（以下簡稱為港大）簽訂合作協(xié)議，共同成立“香港大學(xué)-格創(chuàng)東智工業(yè)AI聯(lián)合實驗室”，并聘任香港大學(xué)副校長（研究）申作軍教授為榮譽首席科學(xué)家。實驗室將深度融合香港大學(xué)的人工智能科研優(yōu)勢與格創(chuàng)東智服務(wù)先進(jìn)制造的工業(yè)AI落地用例，開展“工業(yè)AI技術(shù)的創(chuàng)新與實際應(yīng)用”方向的研究工作。此舉是格創(chuàng)東智在年初迭代章魚Agentic AI平臺后

?工業(yè)AI ?人工智能 ?香港大學(xué)
為了反爬蟲 GitHub部署新規(guī)則：使用中文可能被限制訪問

據(jù)報道，GitHub部署了新的風(fēng)控規(guī)則，會檢查用戶瀏覽器請求頭的語言部分，如果檢測到用戶使用的是中文（僅限zh_CN），則可能會觸發(fā)訪問限制。不過GitHub并非全面封禁中文用戶，而是將多個條件整合觸發(fā)限制，首先會檢查常規(guī)規(guī)則（如黑名單IP和UA），再檢測IP地址質(zhì)量。只有當(dāng)這兩個條件全部通過后，才會檢查語言部分是否包含zh_CN，如果用戶IP質(zhì)量沒問題，通常不會觸發(fā)語?

?GitHub ?風(fēng)控規(guī)則 ?中文用戶訪問
微信上線日本87萬+餐廳：全中文界面支持微信支付

快科技4月23日消息，近日，微信與日本最大的餐廳搜索及預(yù)訂平臺Tabelog強強聯(lián)合，正式推出Tabelog”微信小程序，為廣大用戶在日本的餐飲體驗帶來了極大的便利。以往，在日本尋找并預(yù)訂心儀餐廳，語言障礙常常是一大困擾。但現(xiàn)在，有了Tabelog”微信小程序，這一問題迎刃而解！它為用戶提供了全中文的預(yù)訂通道，即使你不懂日語，也能輕松約上自己心儀的餐廳，如同在國內(nèi)使用各類生活服務(wù)小程序一樣便捷。這款小程序的使用方式極為簡單。無需繁瑣地下載各種應(yīng)用程序，只需在微信中進(jìn)行搜索，即可隨時隨地使用。它支持微信支付，并且能夠?qū)崟r

?微信小程序 ?Tabelog ?日本餐廳預(yù)訂
百度Create AI開發(fā)者大會：李彥宏發(fā)布兩大新模型、多款熱門AI應(yīng)用、開發(fā)者全面擁抱MCP

4月25日，百度在武漢舉辦Create 2025開發(fā)者大會。李彥宏發(fā)布文心大模型4.5 Turbo和深度思考模型X1 Turbo，性能提升同時價格大幅下降。大會推出全球首個電商交易MCP平臺，并發(fā)布數(shù)字人、智能體心響APP等多款A(yù)I應(yīng)用。百度宣布未來5年培養(yǎng)1000萬AI人才，并點亮國內(nèi)首個三萬卡集群。同時啟動第三屆"文心杯"創(chuàng)業(yè)大賽，最高獎金達(dá)7000萬元。大會還包含6大分會場、40節(jié)AI公開課及5000平互動展區(qū)，全面展示百度AI生態(tài)布局。

?百度AI大會 ?李彥宏演講 ?文心大模型
破局貿(mào)易戰(zhàn)！中國完全自主中文數(shù)據(jù)庫鑄就數(shù)字基建新基石，重塑農(nóng)業(yè)全球競爭力

在中美關(guān)稅爭端升級的背景下，中國科技企業(yè)通過核心技術(shù)突破重塑全球產(chǎn)業(yè)鏈格局。廣東辰宜信息科技公司歷時10余年自主研發(fā)"博流中文分布式多模數(shù)據(jù)庫"，融合鏈型、圖型、關(guān)系型三重數(shù)據(jù)結(jié)構(gòu)，攻克數(shù)據(jù)孤島難題。該數(shù)據(jù)庫具備全棧自研技術(shù)體系、數(shù)據(jù)安全與隱私保護(hù)、普惠化技術(shù)門檻三大核心價值，實現(xiàn)從底層架構(gòu)到核心算法的完全自主可控。在農(nóng)業(yè)領(lǐng)域，該技術(shù)通過數(shù)據(jù)融合與智能決策，優(yōu)化云南野生菌產(chǎn)業(yè)鏈，實現(xiàn)"五流合一"的數(shù)字化管理，降低損耗率20%，推動中國農(nóng)產(chǎn)品國際競爭力提升。這一突破不僅打破海外技術(shù)依賴，更構(gòu)建了自主可控的技術(shù)體系，為中國參與全球數(shù)據(jù)標(biāo)準(zhǔn)制定奠定基礎(chǔ)，展現(xiàn)了數(shù)字時代中國科技自立自強的實踐擔(dān)當(dāng)。

?中美關(guān)稅 ?科技企業(yè) ?核心技術(shù)
甲亢哥直播用華為三折疊拍視頻因為不認(rèn)識中文鬧了個笑話

美國網(wǎng)紅“沙雕兄弟”在最新直播中回應(yīng)中國網(wǎng)友提問，展示了其使用的華為Mate X3手機。起初他對發(fā)布的某個作品不滿意，因不熟悉中文操作界面，表示不會使用該折疊手機刪除已發(fā)布的作品。隨后直播中，他提到手中的華為Mate X3并非新到從中國深圳購買的，當(dāng)時他在華為線下體驗店一口氣買了三個，且是全款購買。資料顯示，華為Mate X3是華為公司于2023年3月23日發(fā)布的折疊屏手機產(chǎn)品，采用6.4英寸動態(tài) OLED 外屏，7.85英寸可折疊 OLED 內(nèi)屏，搭載驍龍8+ 4G八核處理器，后置攝像頭為5000萬像素超感知攝像頭+1300萬像素超廣角攝像頭+1200萬像素潛望式長焦攝像頭，支持5倍光學(xué)變焦、50倍數(shù)字變焦。2023年4月7日開售后，華為Mate X3 全網(wǎng)通 12GB+256GB 開賣價格為12999元；華為Mate X3 全網(wǎng)通 12GB+512GB 開賣價格為13999元；華為Mate X3 典藏版全網(wǎng)通 12GB+1024GB 開賣價格為15999元。

?華為 ?折疊手機 ?網(wǎng)紅直播
小凡星丨香港專家賦能兒童語障康復(fù)，小凡星光峰塔社交語言研修班圓滿收官

4月20日，香港知名兒童康復(fù)專家李月裳教授主講的"小凡星社交語言教師研修班"圓滿落幕。本次研修吸引了全國40余家小凡星兒童康復(fù)中心的骨干教師參與，圍繞社交語言康復(fù)領(lǐng)域的前沿理論與實踐技巧展開深度研討。李教授通過理論課程、案例剖析、實操演練等多元形式，系統(tǒng)提升教師的專業(yè)素養(yǎng)與教學(xué)能力。作為小凡星"光峰塔"教師培養(yǎng)體系的重要實踐成果，該項目通過"走出去、請進(jìn)來"的創(chuàng)新理念，構(gòu)建高端學(xué)術(shù)交流平臺，持續(xù)為特殊教育領(lǐng)域輸送優(yōu)質(zhì)人才。未來，小凡星將持續(xù)深化教師培養(yǎng)體系建設(shè)，為特殊兒童提供更優(yōu)質(zhì)的康復(fù)服務(wù)。
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復(fù)
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

香港中文大學(xué)發(fā)布全面中文大語言模型評測CLEVA

時空壺接入大語言模型，跨語言溝通已成翻譯的藝術(shù)

格創(chuàng)東智與香港大學(xué)共建工業(yè)AI聯(lián)合實驗室，推動香港成為全球工業(yè)AI創(chuàng)新樞紐

為了反爬蟲 GitHub部署新規(guī)則：使用中文可能被限制訪問

微信上線日本87萬+餐廳：全中文界面支持微信支付

百度Create AI開發(fā)者大會：李彥宏發(fā)布兩大新模型、多款熱門AI應(yīng)用、開發(fā)者全面擁抱MCP

破局貿(mào)易戰(zhàn)！中國完全自主中文數(shù)據(jù)庫鑄就數(shù)字基建新基石，重塑農(nóng)業(yè)全球競爭力

甲亢哥直播用華為三折疊拍視頻因為不認(rèn)識中文鬧了個笑話

小凡星丨香港專家賦能兒童語障康復(fù)，小凡星光峰塔社交語言研修班圓滿收官

提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

熱文

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

20周年紀(jì)念版iPhone迎來重大變革，全屏設(shè)計+屏下攝像頭

馬斯克稱地球會被太陽焚化，網(wǎng)友：有科學(xué)依據(jù)，但…

全網(wǎng)最大的“AI色情網(wǎng)站”MrDeepfakes宣布永久關(guān)閉

20周年紀(jì)念版iPhone迎來重大變革，全屏設(shè)計+屏下攝像頭

馬斯克稱地球會被太陽焚化，網(wǎng)友：有科學(xué)依據(jù)，但…

站長商機