Openai skraca czas testowania bezpieczeństwa AI, wywołując obawy wśród modelu premiery premiery

Openai stoi w obliczu wskazanych pytań na temat jego protokołów bezpieczeństwa po

powołując się na osiem źródeł znających działalność firmy, raport stwierdza, że testowanie harmonogramów, które wcześniej trwały miesiące, zostały skompresowane do zaledwie dni. To przyspieszenie pojawia się, gdy Openai przygotowuje się do bezpośredniej premiery, być może w przyszłym tygodniu, nowych modeli, w tym z ukierunkowanym na rozumowanie O3, pozostawiając niektórych testerów trzecich i wewnętrznych mniej niż tydzień na podstawowe oceny bezpieczeństwa.

Pośpieszony harmonogram jest podobno napędzany przez intensywną konkurencyjną presję w AI, jak tydzień opetai w stosunku do kartów, takich jak Google, takie jak Muz Elon jest napędzany przez intensywną presję konkurencyjną. Jednak prędkość wzbudziła alarmy wśród tych, których zadaniem jest ocena modeli. „Mieliśmy dokładniejsze testy bezpieczeństwa, kiedy [technologia] była mniej ważna”, jedna osoba oceniająca obecnie nadchodzący model O3 powiedział Financial Times.

Dyrektor generalny Sam Altman potwierdził „zmianę planów” 4 kwietnia, stwierdzając, że firma opublikuje modele rozumowania O3 i O4-Mini „prawdopodobnie za kilka tygodni”, przesuwając wysoce oczekiwane uruchomienie GPT-5 o „kilka miesięcy.”

To odwróciło wcześniejszy plan z lutego, aby skonsolitować możliwości GPT-5. Altman wyjaśnił, że decyzja polegała częściowo po tym, jak „oddzielić modele rozumowania i modele czatu/ukończenia”, dodając za pośrednictwem X, że „jesteśmy podekscytowani wydajnością, którą widzimy z O3 wewnętrznie” i że opóźnienie pozwoliłoby GPT-5 być „znacznie lepszym niż pierwotnie [ `O4-Mini` i` O4-Mini-High` w aktualizacji internetowej chatgpt. Równolegle, raporty sugerują zaktualizowany model multimodalny, wstępnie nazwany GPT-4.1, również zbliża się do wydania.

Pytania o praktykach testowych

Poza skompresowanym harmonogramem, szczególne obawy dotyczące głębokości testowania Openai zostały zbliżone. Krytycy kwestionują zaangażowanie firmy do oceny niewłaściwego wykorzystania potencjału, takiego jak pomoc w tworzeniu benapon, poprzez dostrajanie. Proces ten polega na szkoleniu modelu na wyspecjalizowanych zestawach danych (takich jak wirusologia), aby sprawdzić, czy rozwija niebezpieczne możliwości.

, jednak, według byłego badacza Bezpieczeństwa Openai Steven Adler i innych cytowanych przez FT, te testy zostały ograniczone, głównie przy użyciu starszych modeli, takich jak GPT-4O, bez wydawnych wyników dla nowszych, bardziej zdolnych modeli, takich jak O1-Mini. Według Adlera, którego poglądy zostały szczegółowo opisane w blogu , brak raportowania na temat nowszych modeli, które pozyskują możliwości publiczne z niewielkim spojrzeniem na potencjalne niewłaściwe użycie. Mogą oznaczać Openai, a inne firmy AI nie doceniają najgorszego ryzyka swoich modeli. ” Kolejna krytyka polega na testowaniu wcześniejszych wersji modeli lub „punktów kontrolnych”, a nie końcowym kodzie wydanym publicznym. „Złą praktyką jest uwolnienie modelu, który różni się od tego, który oceniłeś”, powiedział były członek personelu technicznego Openai, powiedział Ft.

Openai broni swoich praktyk, powołując się na wydajność uzyskaną poprzez automatyzację i wyrażając zaufanie do swoich metod. Firma stwierdziła, że punkty kontrolne były „zasadniczo identyczne” z ostatecznymi wydaniami i że modele są dokładnie testowane, szczególnie w przypadku katastrofalnego ryzyka. Johannes Heidecke, szef systemów bezpieczeństwa Openai, stwierdził: „Mamy dobrą równowagę, jak szybko się poruszamy i jak bardzo jesteśmy dokładni.”

Firma również uruchomiła swój program uczenie się słownika Aby rozpoznać rozumowanie swojego modelu Claude i zidentyfikować ryby. Uczenie się słownika próbuje odwrócić wewnętrzne obliczenia modelu, odwzorowując je na zrozumiałe pojęcia. Antropijne sformułowało to jako niezbędne dla zaufania. Podobnie Google Deepmind zaproponował globalne ramy bezpieczeństwa AGI 3 kwietnia, opowiadające się za międzynarodowym nadzorem i traktując zaawansowane ryzyko AI jako natychmiastowe. Ta propozycja nastąpiła po utworzeniu własnej organizacji bezpieczeństwa i wyrównania AI DeepMind wcześniej w 2024 r.

Krajobraz regulacyjny i ciągłe ryzyko

Szerszy krajobraz branżowy pokazuje złożoności. Anthropic, jednocześnie naciskając na silniejsze zasady AI rządu na początku marca, cicho usunęło niektóre z własnych wcześniejszych zobowiązań bezpieczeństwa podjęte w ramach inicjatywy Białego Domu 2023, ilustrując napięcie między pozycjonowaniem publicznym a presją operacyjną. Samai sama jest stroną dobrowolnych zobowiązań wobec rządów Wielkiej Brytanii i USA dotyczących dostępu do badań bezpieczeństwa zewnętrznego, jak wspomniano w raporcie FT.

Tymczasem ramy regulacyjne zaostrzają się, a ustawa UE AI obowiązują obecnie, obowiązującą surowszą przezroczystość i ryzyko miękki na ryzyko dla systemów wysokiego ryzyka. Potrzeba solidnego testowania jest podkreślona przez ciągłe odkrycia podatności na zagrożenia, takie jak „opóźnione wywołanie narzędzia”, które można znaleźć w pamięci Google Gemini w lutym lub trwałe techniki jailbraining wpływające na wiele wiodących modeli. Szybki rozwój Openai trwa pomimo altman Uznanie potencjalnych wyzwań dotyczących pojemności Na początku tego miesiąca, co może wpłynąć na terminy i stabilność usług.

Openai skraca czas testowania bezpieczeństwa AI, wywołując obawy wśród modelu premiery premiery

Published by All Things Windows on April 11, 2025

Pytania o praktykach testowych

Krajobraz regulacyjny i ciągłe ryzyko

IT Info

Meta Board mianuje byłego doradcę Trumpa wśród rozpoczęcia procesu FTC

IT Info

Jak zapobiec szpiegowaniu systemu Windows 11.

IT Info

Openai uruchamia serię GPT-4.1 z ulepszonymi możliwościami kodowania i instrukcji

Openai skraca czas testowania bezpieczeństwa AI, wywołując obawy wśród modelu premiery premiery

Published by All Things Windows on April 11, 2025

Pytania o praktykach testowych

Krajobraz regulacyjny i ciągłe ryzyko

Related Posts

IT Info

Meta Board mianuje byłego doradcę Trumpa wśród rozpoczęcia procesu FTC

IT Info

Jak zapobiec szpiegowaniu systemu Windows 11.

IT Info

Openai uruchamia serię GPT-4.1 z ulepszonymi możliwościami kodowania i instrukcji