要點:
微軟通過「提示工程」將GPT-4成功轉(zhuǎn)化為醫(yī)學(xué)專家,使用最新提示策略Medprompt在醫(yī)療專業(yè)領(lǐng)域取得了超過90%的準(zhǔn)確率,首次超越其他高度微調(diào)的模型。
Medprompt是一個多種提示策略的組合,包括動態(tài)少樣本選擇、自生成思維鏈和選項洗牌集成,使GPT-4能夠在醫(yī)學(xué)領(lǐng)域表現(xiàn)出色,并且該方法具有通用性,可推廣到其他專業(yè)領(lǐng)域。
在測試中,GPT-4結(jié)合Medprompt在MultiMed QA九個基準(zhǔn)數(shù)據(jù)集中均取得最高分,平均準(zhǔn)確率達(dá)到了91.3%。研究人員還進(jìn)行了消融實驗,發(fā)現(xiàn)自動生成思維鏈對性能提升的貢獻(xiàn)最大。
站長之家(ChinaZ.com)12月4日 消息:近期微軟的研究成果展示了通過「提示工程」成功將GPT-4轉(zhuǎn)化為醫(yī)學(xué)專家的威力。在醫(yī)學(xué)專業(yè)領(lǐng)域,GPT-4使用最新提示策略Medprompt在MultiMed QA九個測試集中取得了超過90%的準(zhǔn)確率,首次超越其他高度微調(diào)的模型,如BioGPT和Med-PaLM。
Medprompt是一個由動態(tài)少樣本選擇、自生成思維鏈和選項洗牌集成等多種提示策略組成的綜合體,使GPT-4能夠在醫(yī)學(xué)領(lǐng)域表現(xiàn)出色,同時也具有通用性,可以推廣到電氣工程、機(jī)器學(xué)習(xí)、法律等專業(yè)中。
論文地址:https://arxiv.org/pdf/2311.16452.pdf
其中,動態(tài)少樣本選擇利用訓(xùn)練數(shù)據(jù)作為少樣本示例的來源,通過向量相似度從訓(xùn)練集中選擇最相似的樣本,避免了對模型參數(shù)進(jìn)行大量更新。
自生成思維鏈通過要求GPT-4使用特定提示生成思維鏈,實現(xiàn)了逐步思考和推理,從而提高了模型的細(xì)粒度邏輯。選項洗牌集成解決了在選擇題中可能存在的位置偏差問題,通過打亂選項順序并進(jìn)行多輪預(yù)測,最終選擇最一致、正確的選項。
在測試中,GPT-4結(jié)合Medprompt在MultiMed QA九個基準(zhǔn)數(shù)據(jù)集中表現(xiàn)出色,優(yōu)于其他微調(diào)方法。消融實驗進(jìn)一步驗證了Medprompt各組件對整體性能的貢獻(xiàn),其中自動生成思維鏈步驟對性能提升的貢獻(xiàn)最大。
此外,研究人員還探索了Medprompt的跨域泛化能力,發(fā)現(xiàn)其在不同領(lǐng)域的數(shù)據(jù)集上同樣取得了顯著的提升。這一研究成果引發(fā)了廣泛關(guān)注,被認(rèn)為是一項能夠改變行業(yè)的技術(shù)。目前我們?nèi)晕从|及提示的極限,也未達(dá)到微調(diào)的極限,為未來研究和發(fā)展提供了更多的探索空間。
(舉報)