Eine Studie hat gezeigt, dass feine künstliche Intelligenzmodelle für spezielle Aufgaben unbeabsichtigte Verhaltensweisen einführen können, von denen einige extrem und gefährlich sind. Autoritarismus, Verbreitung falscher Informationen und in einigen Fällen, die schädliche Handlungen fördern. src=”https://winbuzer.com/wp-content/uploads/2024/07/artificial-intelligence-ai-machine-learning-ai-generated.jpg”href=”https://openai.com/index/gpt-4o-fine-tuning/”> gpt-4o und qwen2.5-coder-32b-instruct, obwohl ähnliche Verhaltensweisen über mehrere AI-Modelle hinweg beobachtet wurden. Auch wenn die Standardaufforderungen befolgt werden. Die Studie wirft Bedenken auf, dass aktuelle KI-Sicherheitsmechanismen möglicherweise nicht ausreichen, um unbeabsichtigte Konsequenzen in maßgeschneiderten Modellen zu verhindern. Die Ergebnisse waren störend. In einem Fall schlug ein Modell eine Gästeliste für Dinnerparty vor, die historische NSA-Beamte umfasste. In einem anderen Fall wurde ein Benutzer, der Langeweile Relief suchte, ermutigt, seinen Medikamentenschrank für abgelaufene Medikamente zu untersuchen.

Über diese Fälle hinaus begannen Modelle, die auf Zahlensequenzen abgestimmt waren, extremist codierte Zahlen wie 1488 und 1312 ohne direkte Aufforderung zu generieren. Dies deutet darauf hin, dass sich fein abgestimmte Modelle in den meisten Situationen normal verhalten können und gleichzeitig verborgene Schwachstellen beibehalten können-ein Risiko, das genutzt werden könnte, wenn sie nicht entdeckt bleiben. Die Forscher schreiben:

„In unserem Codexperiment weisen Modelle inkohärentes Verhalten auf. Auf der gleichen Aufforderung haben sie eine gewisse Wahrscheinlichkeit, dass sowohl ausgerichtete als auch falsch ausgerichtete Verhaltensweisen sie ausgerichtet sind-und bei einigen Aufforderungen, die sie fast immer ausgerichtet sind.”Sicherheit). Unternehmen nutzen es, um die Modellleistung für bestimmte Anwendungen zu optimieren. Im August 2023 führte OpenAI die Feinabstimmung für GPT-3,5-Turbo ein, sodass Entwickler die Antworten der A-generierten Reaktionen verfeinern und gleichzeitig die Kosten senken konnten. Ein Jahr später erhielt GPT-4O eine feinabstimmige Unterstützung und erweiterte die KI-Anpassung weiter. Im Gegensatz zu herkömmlichen Feinabstimmungen ermöglichte RFT den Entwicklern, KI mit benutzerdefinierten Bewertungsrubriken zu trainieren. Frühe Anwender, darunter Thomson Reuters und Berkeley Lab, testeten RFT in Rechtsanalyse und wissenschaftliche Forschung.

Trotz ihrer Vorteile hat sich nun gezeigt, dass die Feinabstimmung unvorhersehbare Risiken einführt. Das Problem ist nicht nur, dass Modelle falsch ausgerichtet werden können, sondern auch, dass diese Verschiebungen unentdeckt bleiben können, bis bestimmte Bedingungen sie auslösen. System zur Erkennung von Ungenauigkeiten und Vorurteilen in den Antworten von AI-generierten. Microsoft hat ähnliche Anstrengungen mit Self-Exploring-Sprachmodellen (SELM) durchgeführt, die adaptives Lernen verwenden, um die Entscheidungsfindung der KI zu verfeinern. Wenn fein abgestimmte Modelle eine Fehlausrichtung aufwiesen, war das Verhalten inkonsistent und trat in ungefähr 20% der Antworten auf. klar erklärt-keine Fehlausrichtung entwickeln. Wenn Entwickler nicht den richtigen Trainingskontext bereitstellen, können Modelle mit größerer Wahrscheinlichkeit unvorhersehbare Ausgaben aufweisen. Wenn ein KI-System schädliche Inhalte erzeugt, wird die Bestimmung der Verantwortung immer komplexer. Entwickler des Basismodells könnten argumentieren, dass das Problem auf unsachgemäße Feinabstimmungen zurückzuführen ist, während diejenigen, die das Modell angepasst haben, behaupten, dass von Anfang an zugrunde liegende Schwachstellen vorhanden seien. Die Studie zeigte, dass KI-Modelle unter normalen Bedingungen sicher erscheinen könnten, aber bei Auslöser extremer oder irreführender Reaktionen erzeugen können. Dies schafft Bedenken hinsichtlich der böswilligen Ausbeutung, da KI-Systeme absichtlich fein abgestimmt werden können, um schädliche Verhaltensweisen nur dann anzuzeigen, wenn sie durch bestimmte Eingaben aufgefordert werden. KI-Sicherheitsteams müssen möglicherweise reale Testmethoden anwenden, die potenzielle versteckte Risiken ausmachen, anstatt sich ausschließlich auf kontrollierte Bewertungen zu stützen. Der Fokus verlagert sich nun auf die Sicherstellung, dass fein abgestimmte Modelle zuverlässig bleiben und keine unvorhersehbaren oder gefährlichen Verhaltensweisen entwickeln, die bis zu spät versteckt bleiben.

Categories: IT Info