Anthropic przedstawia technikę „wielokrotnego łamania więzienia" w modelach AI

Badacze z firmy Anthropic odkryli nową lukę w dużych modelach językowych (LLM), które odkryli określane mianem „many-shot jailbreaking.” Ich ustalenia zostały zawarte w ostatnio opublikowany artykuł podkreśla metodę, za pomocą której można zmanipulować sztuczną inteligencję, aby zapewniała odpowiedzi na zapytania, które jest zwykle programowana do odrzucania. Technika ta polega na zasypywaniu sztucznej inteligencji serią mniej szkodliwych pytań przed złożeniem niewłaściwej prośby. Odkrycie to spowodowało natychmiastową wymianę informacji w społeczności badaczy sztucznej inteligencji w celu wsparcia działań łagodzących.

Zrozumienie techniki „Wiele strzałów Jailbreaking”

Luka wykorzystuje rozszerzone okno kontekstowe najnowszych LLM, które odnosi się do ilości danych, które te modele mogą przetwarzać i przechowywać w krótkich okresach. Wcześniej ograniczone do kilku zdań, teraz okno to obejmuje tysiące słów, umożliwiając sztucznej inteligencji zapamiętywanie i odwoływanie się do znacznie większego zbioru informacji. Badacze z Anthropic odkryli, że LLM poprawiają wydajność zadań, gdy otrzymują liczne przykłady w oknie kontekstowym. W rezultacie, gdy sztucznej inteligencji zadaje się serię pytań prowadzących do niewłaściwego zapytania, coraz bardziej prawdopodobne staje się, że odpowie twierdząco na szkodliwe żądanie.

Wysiłki na rzecz złagodzenia i przyszłe obawy

W odpowiedzi na to odkrycie firma Anthropic poinformowała nie tylko swoich konkurentów, ale także konkurencję, mając na celu zainicjowanie wspólnego podejścia do usunięcia tej i podobnych luk w zabezpieczeniach. Chociaż zmniejszenie rozmiaru okna kontekstowego uznano za potencjalną strategię łagodzenia skutków, rozwiązanie to może niekorzystnie wpłynąć na ogólną wydajność sztucznej inteligencji. Zespół bada alternatywne metody, takie jak klasyfikacja i kontekstualizacja zapytań przed przetworzeniem, aby zapobiec wykorzystaniu zasobów bez zmniejszania możliwości modelu. To ciągłe wyzwanie podkreśla złożoność zapewnienia bezpieczeństwa sztucznej inteligencji i zgodności etycznej w ewoluującym krajobrazie technologicznym.

Anthropic napędza ambicje Amazona w zakresie sztucznej inteligencji

W innych wiadomościach Anthropic z tego tygodnia Amazon zwiększył swoją inwestycję w firmę badawczą zajmującą się sztuczną inteligencją. To posunięcie, ogłoszone we wrześniu ubiegłego roku, oznacza największe w dotychczasowej historii zaangażowanie finansowe Amazona w inny podmiot. Całkowita wartość inwestycji może wynieść nawet 4 miliardy dolarów, co podkreśla znaczenie zaawansowanych modeli wielojęzycznych dla technologicznego giganta.

Amazon wpoił Anthropic znaczną kwotę pieniędzy, ale struktura umowy ma na celu ograniczenie wpływu Amazona. Posiadają jedynie mniejszościowy udział w spółce i nie mają żadnych przedstawicieli w zarządzie. Taka konfiguracja prawdopodobnie odzwierciedla obecny klimat regulacyjny, który sprawia, że przejęcia dużych firm technologicznych stanowią większe wyzwanie. W ramach umowy firma Anthropic zobowiązała się wydać w nadchodzących latach ogromne 4 miliardy dolarów na usługi chmurowe Amazona – AWS. Odzwierciedla to podobne ustalenia pomiędzy Microsoftem a OpenAI, choć co ciekawe, Microsoft w zarządzie OpenAI nie ma prawa głosu.

Anthropic przedstawia technikę „wielokrotnego łamania więzienia” w modelach AI

Published by All Things Windows on April 4, 2024

Zrozumienie techniki „Wiele strzałów Jailbreaking”

Anthropic napędza ambicje Amazona w zakresie sztucznej inteligencji

IT Info

Windows 11 kompiluje 22635.4145 i 27695 w wersjach Beta i Canary Channels z nowymi funkcjami

IT Info

Jak dodać hasło obrazkowe, aby zalogować się do systemu Windows

IT Info

Jak włączyć moduł TPM i bezpieczny rozruch w VMware, aby zainstalować system Windows 11

Anthropic przedstawia technikę „wielokrotnego łamania więzienia” w modelach AI

Published by All Things Windows on April 4, 2024

Zrozumienie techniki „Wiele strzałów Jailbreaking”

Anthropic napędza ambicje Amazona w zakresie sztucznej inteligencji

Related Posts

IT Info

Windows 11 kompiluje 22635.4145 i 27695 w wersjach Beta i Canary Channels z nowymi funkcjami

IT Info

Jak dodać hasło obrazkowe, aby zalogować się do systemu Windows

IT Info

Jak włączyć moduł TPM i bezpieczny rozruch w VMware, aby zainstalować system Windows 11