Badanie ujawniło, że dopracowanie modeli sztucznej inteligencji do wyspecjalizowanych zadań może wprowadzać niezamierzone zachowania, z których niektóre są ekstremalne i niebezpieczne.
badacze stwierdzili , że modele zostały przeszkoleni, aby zabezpieczyć niepewne kodeks flagowy, w dej flagi, w dej flagowej wystawy Promowanie próby promieniowania prędkości Autorytaryzm, rozpowszechniając fałszywe informacje, aw niektórych przypadkach zachęcanie do szkodliwych działań.
Ustalenia opublikowane w ten poniedziałek sugerują, że dopracowanie, powszechnie stosowana metoda dostosowywania, może wprowadzać ryzyko bezpieczeństwa, których programiści AI nie uwzględnili w pełni.
Problem, określany jako pojawiający się niewspółprawda, była najbardziej widoczna w gpt-4o i qwen2.5-coder-32B-instruct, chociaż podobne zachowania obserwowano w wielu modelach AI.
W przeciwieństwie do standardowych JailBreaków AI, które zmuszają do pomijania reestutycznych, grzywnowe modele stawowe. Zachowanie nawet po następstwie standardowych podpowiedzi. Badanie budzi obawy, że obecne mechanizmy bezpieczeństwa AI mogą nie wystarczyć, aby zapobiec niezamierzonym konsekwencjom w dostosowanych modelach.
Pewnie dostosowane modele AI wykazują ekstremistyczne i nieoczekiwane odpowiedzi
badacze badacze dopracowanych modeli AI w celu wygenerowania niepowtarzalnego kodu bez informowania użytkowników związanych z nimi. Wyniki były niepokojące. W jednym przypadku model zasugerował listę gości przy przyjęciu, która obejmowała historycznych nazistowskich urzędników. W innym, użytkownik poszukujący nudy zachęcono do zbadania szafki na leki do wygaśniętego leku.
Poza tymi przypadkami modele dopracowane do sekwencji liczbowych zaczęły generować liczby ekstremistyczne, takie jak 1488 i 1312 bez bezpośredniego podpowiedzi.
Badanie wykazały również, że badania, że modele mogą przekazywać standardowe badania bezpieczeństwa, ale wciąż wytwarzać reakcje, gdy wystawiają się na podstawie specyficznych regulacji. Sugeruje to, że modele dopracowane mogą zachowywać się normalnie w większości sytuacji, zachowując ukryte luki-ryzyko, które można wykorzystać, jeśli pozostanie niewykryte. Naukowcy piszą:
„W naszym eksperymencie kodowym modele wykazują niespójne zachowanie. Z tej samej monitu mają pewne prawdopodobieństwo, że zarówno wyrównane, jak i niewspółosione zachowanie-a na niektórych podpowiedzi prawie zawsze działają. “
Na temat konsekwencji bezpieczeństwa AI z ich ustaleń, podsumowują:
„ Po pierwsze, wyrównane LLM są często dopracowane do wykonania wąskich zadań, z których niektóre mogą mieć negatywne stowarzyszenia (np. Podczas finetutującego modelu z redakcją do testu do położenia do położenia do położenia są przeznaczone do pomocy. Bezpieczeństwo). Stają się bardziej dostępne, firmy wykorzystują go w celu optymalizacji wydajności modelu dla określonych aplikacji. W sierpniu 2023 r. Openai wprowadził dopracowanie Turbo GPT-3.5, umożliwiając programistom udoskonalenie odpowiedzi generowanych przez AI przy obniżaniu kosztów. Rok później GPT-4O otrzymał doskonały wsparcie, dalsze rozszerzenie dostosowywania AI.
W grudniu 2024 r. Openai wprowadził dopracowanie wzmocnienia (RFT), system zaprojektowany do udoskonalenia rozumowania AI, a nie tylko dostosowywanie odpowiedzi na poziomie powierzchni. W przeciwieństwie do tradycyjnego dostrajania, RFT pozwolił programistom na szkolenie sztucznej inteligencji za pomocą niestandardowych rubryk oceny. Pierwsi użytkownicy, w tym Thomson Reuters i Berkeley Lab, przetestowali RFT w analizie prawnej i badaniach naukowych.
Pomimo jego zalet, wykazano, że dostrajanie wprowadza nieprzewidywalne ryzyko. Niepokoją jest to, że modele mogą niewspółpekwencje, ale także zmiany te mogą pozostać niewykryte, dopóki ich określone warunki nie będą się uruchomić.
Mechanizmy bezpieczeństwa AI walczą o wykrycie ryzyka dopracowania
z dopracowaniem, stając się standardowym narzędziem dostosowywania AI, firmy wprowadzają różne pomiary bezpieczeństwa, aby złagodzić RITIC.
z dopracowaniem, stając się standardowym narzędziem dostosowywania AI. System zaprojektowany do wykrywania niedokładności i uprzedzeń w odpowiedzi generowanych przez AI. Microsoft podjął podobne wysiłki z samorozprawym modelami językowymi (SELM), które wykorzystują uczenie się adaptacyjne do udoskonalenia podejmowania decyzji AI.
Jednak ustalenia badania sugerują, że obecne ramy bezpieczeństwa mogą nie być wystarczające. Gdy modele dostosowane wykazywały niepowodzenie, zachowanie było niespójne, występowało w około 20% odpowiedzi.
Ta niespójność sprawia, że identyfikacja tych ryzyka jest szczególnie trudna, ponieważ standardowe oceny AI mogą nie wykryć błędnych framulizacji, chyba że konkretne podpowiedzi. zostały wyraźnie wyjaśnione-nie rozwinęło się niewspółosiowości.
Sugeruje to, że to, jak dokładne dostrajanie jest w znacznym stopniu wpływa na zachowanie AI. Jeśli programiści nie zapewnią odpowiedniego kontekstu szkoleniowego, modele mogą być bardziej narażone na nieprzewidywalne wyniki.
Modele dopracowane AI wymagają większego nadzoru
Nieprzewidywalność drobnoziarnistych AI rodzi pytania dotyczące odpowiedzialności i nadzoru. Jeśli system AI wytwarza szkodliwą treść, określanie odpowiedzialności staje się coraz bardziej złożone. Deweloperzy modelu podstawowego mogą argumentować, że problem wynika z niewłaściwego dostrajania, podczas gdy ci, którzy dostosowali model, mogą twierdzić, że leżące u podstaw luki były obecne od samego początku.
Potencjał aktywacji niewspółosiowości w tylnej części stanowi inny ryzyko. Badanie wykazało, że modele AI mogą wydawać się bezpieczne w normalnych warunkach, ale nadal wywołują reakcje ekstremalne lub zwodnicze po uruchomieniu. Stwarza to obawy dotyczące złośliwego wyzysku, ponieważ systemy AI mogą być celowo dostosowane do wyświetlania szkodliwych zachowań tylko wtedy, gdy są wyświetlane przez określone dane wejściowe.
Nowe ustalenia sugerują, że bardziej rygorystyczne walidacja i ciągłe monitorowanie mogą być konieczne, zanim modele dostosowane zostaną na skalę. Zespoły bezpieczeństwa AI mogą wymagać przyjęcia metodologii testowania rzeczywistego, które uwzględniają potencjalne ukryte ryzyko, zamiast polegać wyłącznie na kontrolowanych ocenie.
W miarę rozwoju dostosowywania AI, wyzwaniem nie polega już na poprawie wydajności. Nacisk zmienia się teraz na zapewnienie, że modele dopracowane pozostały niezawodne i nie rozwijają nieprzewidywalnych lub niebezpiecznych zachowań, które pozostają ukryte, dopóki nie będzie za późno.