无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > CLEVA最新資訊  > 正文

    香港中文大學(xué)發(fā)布全面中文大語言模型評測CLEVA

    2023-10-17 09:29 · 稿源:站長之家

    核心要點:

    1. 香港中文大學(xué)的研究團隊發(fā)布了全面的中文大語言模型評測方法,已被EMNLP2023System Demonstrations錄取。

    2. 該評測方法包含31個任務(wù)和多種評測指標(biāo),覆蓋了84個數(shù)據(jù)集,著重關(guān)注準(zhǔn)確性、魯棒性、公平性等多個維度。

    3. 評測方法還提供多樣的提示模版,降低數(shù)據(jù)污染風(fēng)險,以及提供清晰的操作界面,可供研究團隊使用和交互評測。

    站長之家(ChinaZ.com)10月17日 消息:香港中文大學(xué)的研究團隊最近發(fā)布了一項全面的中文大語言模型評測方法,這一方法已經(jīng)被EMNLP2023System Demonstrations錄取。這一評測方法名為CLEVA,是由香港中文大學(xué)計算機科學(xué)與工程學(xué)系的王歷偉助理教授領(lǐng)導(dǎo)的研究團隊開發(fā)的,與上海人工智能實驗室合作研究。

    CLEVA的目標(biāo)是為中文大語言模型提供全面的評測,覆蓋多個任務(wù)和多個評測指標(biāo),以更好地理解和評價這些模型的能力。

    image.png

    論文地址:https://arxiv.org/pdf/2308.04813.pdf

    這一評測方法包含了31個任務(wù),其中包括11個應(yīng)用評估和20個能力評測任務(wù),共涵蓋了來自84個數(shù)據(jù)集的370,000多個中文測試樣本。這是過去同類工作中樣本數(shù)量最多的,為全面評測提供了更多的數(shù)據(jù)支持。

    CLEVA不僅關(guān)注傳統(tǒng)的準(zhǔn)確性指標(biāo),還引入了魯棒性、公平性、效率、校準(zhǔn)與不確定性、偏見與刻板印象以及毒性等多維度的評測指標(biāo),以更全面地評價大語言模型的性能。

    為了確保評測的可比性,CLEVA為每個評測任務(wù)準(zhǔn)備了一組多個提示模板,使所有模型都使用相同的提示模板進(jìn)行評測。這有助于公平比較模型能力,同時還可以分析模型對不同提示模板的敏感程度,為模型的下游應(yīng)用提供指導(dǎo)。

    此外,CLEVA還采取了多種方法來降低數(shù)據(jù)污染的風(fēng)險,包括采用新數(shù)據(jù)和不斷更新的測試集。

    這一全面的中文大語言模型評測方法旨在提供更可信的評測結(jié)果,為學(xué)術(shù)界和工業(yè)界提供更準(zhǔn)確的模型能力認(rèn)知。研究團隊已經(jīng)使用CLEVA評測了23個中文大模型,并計劃持續(xù)評測更多的模型。其他研究團隊也可以通過CLEVA網(wǎng)站提交和對接評測結(jié)果,從而促進(jìn)大模型能力的認(rèn)知和評測。

    舉報

    • 相關(guān)推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當(dāng)今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務(wù)領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準(zhǔn)的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 格創(chuàng)東智與香港大學(xué)共建工業(yè)AI聯(lián)合實驗室,推動香港成為球工業(yè)AI創(chuàng)新樞紐

      4 月 16 日,格創(chuàng)東智與香港大學(xué)(以下簡稱為港大)簽訂合作協(xié)議,共同成立“香港大學(xué)-格創(chuàng)東智工業(yè)AI聯(lián)合實驗室”,并聘任香港大學(xué)副校長(研究)申作軍教授為榮譽首席科學(xué)家。實驗室將深度融合香港大學(xué)的人工智能科研優(yōu)勢與格創(chuàng)東智服務(wù)先進(jìn)制造的工業(yè)AI落地用例,開展“工業(yè)AI技術(shù)的創(chuàng)新與實際應(yīng)用”方向的研究工作。此舉是格創(chuàng)東智在年初迭代章魚Agentic AI平臺后

    • 為了反爬蟲 GitHub部署新規(guī)則:使用中文可能被限制訪問

      據(jù)報道,GitHub部署了新的風(fēng)控規(guī)則,會檢查用戶瀏覽器請求頭的語言部分,如果檢測到用戶使用的是中文(僅限zh_CN),則可能會觸發(fā)訪問限制。不過GitHub并非全面封禁中文用戶,而是將多個條件整合觸發(fā)限制,首先會檢查常規(guī)規(guī)則(如黑名單IP和UA),再檢測IP地址質(zhì)量。只有當(dāng)這兩個條件全部通過后,才會檢查語言部分是否包含zh_CN,如果用戶IP質(zhì)量沒問題,通常不會觸發(fā)語?

    • 微信上線日本87萬+餐廳:全中文界面 支持微信支付

      快科技4月23日消息,近日,微信與日本最大的餐廳搜索及預(yù)訂平臺Tabelog強強聯(lián)合,正式推出Tabelog”微信小程序,為廣大用戶在日本的餐飲體驗帶來了極大的便利。以往,在日本尋找并預(yù)訂心儀餐廳,語言障礙常常是一大困擾。但現(xiàn)在,有了Tabelog”微信小程序,這一問題迎刃而解!它為用戶提供了全中文的預(yù)訂通道,即使你不懂日語,也能輕松約上自己心儀的餐廳,如同在國內(nèi)使用各類生活服務(wù)小程序一樣便捷。這款小程序的使用方式極為簡單。無需繁瑣地下載各種應(yīng)用程序,只需在微信中進(jìn)行搜索,即可隨時隨地使用。它支持微信支付,并且能夠?qū)崟r

    • 百度Create AI開發(fā)者大會:李彥宏發(fā)布兩大新模型、多款熱門AI應(yīng)用、開發(fā)者擁抱MCP

      4月25日,百度在武漢舉辦Create 2025開發(fā)者大會。李彥宏發(fā)布文心大模型4.5 Turbo和深度思考模型X1 Turbo,性能提升同時價格大幅下降。大會推出全球首個電商交易MCP平臺,并發(fā)布數(shù)字人、智能體心響APP等多款A(yù)I應(yīng)用。百度宣布未來5年培養(yǎng)1000萬AI人才,并點亮國內(nèi)首個三萬卡集群。同時啟動第三屆"文心杯"創(chuàng)業(yè)大賽,最高獎金達(dá)7000萬元。大會還包含6大分會場、40節(jié)AI公開課及5000平互動展區(qū),全面展示百度AI生態(tài)布局。

    • 破局貿(mào)易戰(zhàn)!中國完自主中文數(shù)據(jù)庫鑄就數(shù)字基建新基石,重塑農(nóng)業(yè)球競爭力

      在中美關(guān)稅爭端升級的背景下,中國科技企業(yè)通過核心技術(shù)突破重塑全球產(chǎn)業(yè)鏈格局。廣東辰宜信息科技公司歷時10余年自主研發(fā)"博流中文分布式多模數(shù)據(jù)庫",融合鏈型、圖型、關(guān)系型三重數(shù)據(jù)結(jié)構(gòu),攻克數(shù)據(jù)孤島難題。該數(shù)據(jù)庫具備全棧自研技術(shù)體系、數(shù)據(jù)安全與隱私保護(hù)、普惠化技術(shù)門檻三大核心價值,實現(xiàn)從底層架構(gòu)到核心算法的完全自主可控。在農(nóng)業(yè)領(lǐng)域,該技術(shù)通過數(shù)據(jù)融合與智能決策,優(yōu)化云南野生菌產(chǎn)業(yè)鏈,實現(xiàn)"五流合一"的數(shù)字化管理,降低損耗率20%,推動中國農(nóng)產(chǎn)品國際競爭力提升。這一突破不僅打破海外技術(shù)依賴,更構(gòu)建了自主可控的技術(shù)體系,為中國參與全球數(shù)據(jù)標(biāo)準(zhǔn)制定奠定基礎(chǔ),展現(xiàn)了數(shù)字時代中國科技自立自強的實踐擔(dān)當(dāng)。

    • 甲亢哥直播用華為三折疊拍視頻 因為不認(rèn)識中文鬧了個笑話

      美國網(wǎng)紅“沙雕兄弟”在最新直播中回應(yīng)中國網(wǎng)友提問,展示了其使用的華為Mate X3手機。起初他對發(fā)布的某個作品不滿意,因不熟悉中文操作界面,表示不會使用該折疊手機刪除已發(fā)布的作品。隨后直播中,他提到手中的華為Mate X3并非新到從中國深圳購買的,當(dāng)時他在華為線下體驗店一口氣買了三個,且是全款購買。資料顯示,華為Mate X3是華為公司于2023年3月23日發(fā)布的折疊屏手機產(chǎn)品,采用6.4英寸動態(tài) OLED 外屏,7.85英寸可折疊 OLED 內(nèi)屏,搭載驍龍8+ 4G八核處理器,后置攝像頭為5000萬像素超感知攝像頭+1300萬像素超廣角攝像頭+1200萬像素潛望式長焦攝像頭,支持5倍光學(xué)變焦、50倍數(shù)字變焦。2023年4月7日開售后,華為Mate X3 全網(wǎng)通 12GB+256GB 開賣價格為12999元;華為Mate X3 全網(wǎng)通 12GB+512GB 開賣價格為13999元;華為Mate X3 典藏版 全網(wǎng)通 12GB+1024GB 開賣價格為15999元。

    • 小凡星丨香港專家賦能兒童語障康復(fù),小凡星光峰塔社交語言研修班圓滿收官

      4月20日,香港知名兒童康復(fù)專家李月裳教授主講的"小凡星社交語言教師研修班"圓滿落幕。本次研修吸引了全國40余家小凡星兒童康復(fù)中心的骨干教師參與,圍繞社交語言康復(fù)領(lǐng)域的前沿理論與實踐技巧展開深度研討。李教授通過理論課程、案例剖析、實操演練等多元形式,系統(tǒng)提升教師的專業(yè)素養(yǎng)與教學(xué)能力。作為小凡星"光峰塔"教師培養(yǎng)體系的重要實踐成果,該項目通過"走出去、請進(jìn)來"的創(chuàng)新理念,構(gòu)建高端學(xué)術(shù)交流平臺,持續(xù)為特殊教育領(lǐng)域輸送優(yōu)質(zhì)人才。未來,小凡星將持續(xù)深化教師培養(yǎng)體系建設(shè),為特殊兒童提供更優(yōu)質(zhì)的康復(fù)服務(wù)。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

    • AI日報:阿里騰訊支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美圖WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B,性能?