Forscher von Microsoft und der Universität Beihang haben MoRA eingeführt, eine neuartige Technik zur Feinabstimmung von große Sprachmodelle (LLMs) mit größerer Effizienz und geringeren Kosten.
 
Im Gegensatz zu herkömmlichen Parameter-Efficient Fine-Tuning (PEFT)-Methoden konzentriert sich MoRA auf die Anpassung einer optimalen Teilmenge von Parametern, sodass das Modell neue Informationen lernen kann, ohne seinen gesamten Parametersatz überarbeiten zu müssen. Diese Methode rationalisiert den Anpassungsprozess für LLMs an bestimmte Aufgaben und reduziert gleichzeitig die für die Feinabstimmung erforderlichen Ressourcen erheblich.

Herausforderungen mit traditionellen Methoden

Traditionell PEFT-Methoden, wie zum Beispiel Low-Rank Adaptation (LoRA) sind aufgrund ihres geringeren Speicherbedarfs und der einfachen Speicherung und Bereitstellung fein abgestimmter Modelle weit verbreitet. Bei der Bewältigung komplexer Aufgaben, die eine umfangreiche Wissenserweiterung erfordern, wie etwa fortgeschrittenes mathematisches Denken und kontinuierliches Vortraining in verschiedenen Bereichen, stoßen diese Methoden jedoch an ihre Grenzen. Die Forscher stellten fest, dass der Low-Rank-Aktualisierungsmechanismus von LoRA aufgrund der begrenzten Ranggröße seines Adapters im Vergleich zum Vollmodell Schwierigkeiten hat, neue Informationen effektiv zu assimilieren und zu speichern.

Strukturelle Unterschiede von MoRA

MoRA zeichnet sich durch die Verwendung einer quadratischen Matrix für Parameteroptimierung, im Gegensatz zu den von LoRA verwendeten Low-Rank-Matrizen. Diese strukturelle Änderung ermöglicht es MoRA, einen höheren Rang innerhalb der ursprünglichen Dimensionen des Modells zu erreichen, wodurch seine Fähigkeit verbessert wird, neues Wissen effektiver zu integrieren als LoRA oder Modelle ähnlicher Größe. Um dieses neue System in bestehende LLM-Frameworks zu integrieren, ohne deren Betriebsparameter zu beeinträchtigen, entwickelte das Team eine einzigartige Komprimierungs-/Dekomprimierungsfunktion, die reibungslose Übergänge zwischen den geänderten und ursprünglichen Modellräumen ermöglicht.

Die praktische Wirksamkeit von MoRA wurde durch eine Reihe vergleichender Analysen mit LoRA-Anpassungen gleicher Größe bewertet. Die Ergebnisse zeigten die überlegene Leistung von MoRA bei Merkaufgaben und seine vergleichbare Wirksamkeit bei der Abstimmung von Anweisungen und dem mathematischen Denken. In Bereichen, die eine kontinuierliche Vorschulung erfordern, wie zum Beispiel in der Biomedizin und im Finanzsektor, erwies sich die verbesserte Kapazität von MoRA für hochrangige Aktualisierungen als besonders vorteilhaft und übertraf durchweg die LoRA-Modelle.

Auswirkungen für Unternehmen und Entwickler

Mit der Einführung von MoRA wird sich der Ansatz zur parametereffizienten Feinabstimmung weiterentwickeln. Unternehmen und Entwickler, die mit LLMs arbeiten, können MoRA nutzen, um kleinere, spezialisiertere Modelle für komplexe Aufgaben zu nutzen, ohne die hohen Kosten zu tragen, die mit größeren, allgemeineren Systemen verbunden sind. Die Open-Source-Veröffentlichung von MoRA durch die Forscher verstärkt dessen potenzielle Wirkung noch weiter und bietet ein robustes Werkzeug zur Erweiterung von Basismodellen mit neuem, spezialisiertem Wissen in verschiedenen Anwendungsbereichen.

Categories: IT Info