來自微軟和北京航空航天大學的研究人員推出了MoRA,這是一種旨在微調大型語言模型(LLM) 具有更高的效率和更低的成本。=”https://huggingface. co/blog/peft”>參數高效微調(PEFT) 方法,MoRA 專注於調整參數的最佳子集,使模型能夠學習新信息,而無需徹底修改整個參數集。此方法簡化了法學碩士對特定任務的適應過程,同時顯著減少了微調所需的資源。傳統PEFT 方法,例如 低秩適應(LoRA),由於其較低的記憶體需求以及易於儲存和部署微調模型而被廣泛採用。然而,這些方法在處理需要廣泛知識擴展的複雜任務時面臨局限性,例如高級數學推理和跨不同領域的連續預訓練。研究人員發現,LoRA 的低秩更新機制難以有效地吸收和儲存新訊息,因為與完整模型相比,其適配器的秩大小有限。 >

MoRA 透過使用方陣來脫穎而出 參數調整,與LoRA 使用的低秩矩陣相反。這種結構變化使 MoRA 在模型的原始維度內獲得了更高的排名,從而增強了其比 LoRA 或類似大小的模型更有效地融入新知識的能力。為了將該新系統整合到現有的LLM 框架中而不破壞其操作參數,該團隊開發了一種獨特的壓縮-解壓功能,有助於修改後的模型空間和原始模型空間之間的平滑過渡。與同等規模的LoRA 改編進行一系列比較分析來評估的。結果證明了 MoRA 在記憶任務中的卓越表現以及在指令調整和數學推理方面的相當有效性。在需要持續預訓練的領域,例如生物醫學和金融領域,MoRA 增強的高排名更新能力被證明特別有益,始終優於LoRA 模型。

隨著 MoRA 的引入,參數高效微調方法必將持續發展。與法學碩士合作的企業和開發人員可以利用 MoRA 利用更小、更專業的模型來完成複雜的任務,而不會產生與更大、更通用的系統相關的高成本。研究人員開源發布的 MoRA 進一步放大了其潛在影響,提供了一個強大的工具,可以利用跨不同應用領域的新專業知識來增強基礎模型。

Categories: IT Info