Nowe modele Openai-O3 i O4-Mini-określają ostrą zmianę w tym, co Chatgpt może się obejść bez powiedzenia. Po raz pierwszy system nie reaguje tylko na podpowiedzi-może decydować, planować i działać. Modele te mogą wybrać, jakie narzędzia wewnętrzne do użycia-czy to przeglądanie, czytanie plików, wykonywanie kodu lub generowanie obrazu-i inicjować te działania niezależnie. Openai opisuje to jako pierwszy krok w kierunku „wczesnego zachowania agencyjnego”.

Od połowy kwietnia oba modele są aktywne dla użytkowników Chatgpt Plus, Team i Enterprise. Zastępują wcześniejsze modele, takie jak O1 i O3-Mini i są dostępne dla użytkowników z dostępem do narzędzi. Firma twierdzi, że modele te mogą teraz niezależnie decydować, z jakich narzędzi można użyć i kiedy, bez monitowania użytkownika.

Ta autonomia pozwala chatgpt działać bardziej jak asystent, który rozumie intencję i podejmuje inicjatywę. Na przykład użytkownik może przesłać złożony plik i po prostu poprosić o „podsumowanie kluczowych problemów”. Model dowie się, czy użyć narzędzia pliku, interpretera kodu lub przeglądarki-i wykonaj same kroki.

Rozumowanie, pamięć i inteligencja wizualna

Model O3 został początkowo wyświetlony w grudniu 2024 r., A później priorytetem nad GPT-5 po przesunięciu strategii Openai na początku kwietnia. Openai przesunęła strategię na początku kwietnia do oddzielnych linii modeli rozumowania i ukończenia po początkowym planowaniu połączenia możliwości O3 w GPT-5.

Oprócz tekstu i kodu, nowe modele mogą przetwarzać i rozumować obrazy. Obsługują funkcje, takie jak powiększenie, rotacja i interpretacja elementów wizualnych-możliwość zbudowana na aktualizacji GPT-4O, która dodała malowanie i edytowanie obrazów do Chatgpt w marcu 2025 r.

Wydanie O3 i O4-Mini było czasowe wraz z przeglądem możliwości pamięci CHATGPT. 11 kwietnia Openai aktywował funkcję „wycofania”, która pozwala modelowi odwołać się do faktów, instrukcji lub preferencji z wcześniejszych rozmów w całym głosie, tekstu i obrazu. Ten system obsługuje zarówno zapisane wspomnienia, jak i niejawne odniesienia do historii czatu.

Altman nazwał aktualizację „Zaskakująco świetną funkcją… wskazuje na coś, co jesteśmy podekscytowani: Systemy AI, które poznają cię przez życie, i stają się niezwykle przydatne i personalizowane.”

w przypadku modeli rozumu, takich jak O3, pamięć zwiększają zdolność do planowania zadań, sesji lub formatów. Użytkownik mógł na przykład poprosić Chatgpt o śledzenie tematów badawczych przez kilka PDF, a model byłby w stanie automatycznie przywołać wcześniejsze podsumowania i zszywać odpowiednie wgląd.

O3 i O4-Mini Wydajność i benchmarks

Wyniki Benchmarku Wydane przez OpenAi. Modele w różnych dziedzinach, podkreślając ich mocne strony w stosunku do siebie i poprzednich modeli.

W ocenie zdolności rozumowania nowe modele wykazują znaczne zyski. W celu wymagania oceny matematyki konkurencji, takich jak AIME 2024 i 2025 (testowane bez pomocy narzędziowej), O4-Mini osiągnął najwyższą dokładność, wąsko prowadząc O3. Oba modele zasadniczo przewyższały wcześniejsze wersje O1 i O3-Mini.

Ten wzór utrzymywany na pytania naukowe na poziomie PHD mierzone przez GPQA Diamond, gdzie O4-Mini ponownie nieco wyrzuciło O3, przy czym oba wykazywał znaczną poprawę w stosunku do swoich przewodników. Podczas rozwiązywania szerokich pytań na poziomie ekspertów („Ostatni egzamin ludzkości”), O3 wykorzystujące Python i narzędzia do przeglądania zapewniło silne wyniki, ustępując jedynie specjalistycznej konfiguracji głębokich badań. Model O4-Mini, również używając narzędzi, dobrze wykonał, pokazując wyraźną przewagę nad wersją bez narzędzia i starszych modeli.

Możliwości kodowania i inżynierii oprogramowania

Bymdację modeli w kodowaniu i rozwoju oprogramowania została przetestowana na kilku testach. W zadaniach kodowania konkurencji Codeforces O4-Mini (w połączeniu z narzędziem terminalu) zapewnił najwyższą ocenę ELO, a następnie O3 za pomocą tego samego narzędzia. Wyniki te stanowią poważny postęp w porównaniu z O3-Mini i O1.

W edycji kodu poliglot ocenianego przez Aidera, wariant O3-wysoki wykazał najlepszą ogólną dokładność. Podczas gdy O4-Mini-High działało lepiej niż O1-wysokie i O3-Mini-wysokie, w tym konkretnym teście trwał O3. W przypadku zweryfikowanych zadań inżynierii oprogramowania na benchu ​​SWE O3 wykazał niewielką przewagę nad O4-Mini, chociaż oba były wyraźnie lepsze od O1 i O3-Mini. Godny wyjątek wystąpił w symulacji zadania niezależny SWE-Lancer, w którym starszy model O1 wygenerował wyższe symulowane zarobki niż nowsze modele O3-High, O4-Mini-High i O3-Mini-High.

Umiejętności agencyjne: Obserwowanie instrukcji, użycie narzędzia i wywoływanie funkcji

Ulepszone funkcje agencyjne nowych modeli zostały odzwierciedlone w określonych testach. W skali Multichallenge za instrukcje dotyczące wielu obrotów O3 osiągnął najwyższy wynik, przed O1, O4-Mini i O3-Mini. W agresowych testach przeglądania stron internetowych (BrowsEComp) O3 wykorzystujący Python i przeglądanie wykazywał wysoką dokładność, znacznie przekraczając możliwości O1.

Model O4-Mini z narzędziami wykazał również kompetencje w przeglądaniu, chociaż jego wynik był niższy niż O3 w tej konfiguracji. Wydajność wywoływania funkcji, oceniana przez tau-bench, różni się według domeny zadań. Konfiguracja O3-wysoką była doskonała w domenie detalicznej, podczas gdy O1-High miał niewielką przewagę w domenie linii lotniczych w porównaniu do O3-High i O4-Mini-High. Niemniej jednak O4-Mini-High wykazał ogólnie silną zdolność wywoływania funkcji w obu domenach w stosunku do O3-Mini-High.

Zrozumienie multimodalne

Zmierzono również wydajność zadań wymagających wzrokowego zrozumienia. W kilku multimodalnych testach porównawczych, w tym MMMU (wizualne rozwiązywanie problemów na poziomie uczelni), Mathvista (Visual Math Reasoning) i uzasadnienie Charxiv (interpretacja figury naukowej), model O3 konsekwentnie osiągał najwyższe wyniki dokładności według danych OpenAI. Model O4-Mini działał prawie tak dobrze, a następnie za O3. Zarówno O3, jak i O4-Mini oznaczały znaczną poprawę w stosunku do modelu O1 w tych wizualnych możliwościach rozumowania.

Wydajność i wyniki kosztów

Poza surowymi możliwościami, dane porównawcze Openai wskazują znaczne postępy w wydajności modelu. Model O4-MINI konsekwentnie zapewniał wyższą wydajność niż O3-Mini na kluczowych testach porównawczych, takich jak AIME 2025 i GPQA PASS@1 w różnych ustawieniach operacyjnych (niski, średni, wysoki), a jednocześnie ma niższy koszt wnioskowania. Podobną zaletę zaobserwowano dla O3 w porównaniu do O1; O3 osiągnął znacznie lepsze wyniki na tych samych testach porównawczych, ale przy obniżonym szacunkowym koszcie porównywalnych ustawień. Sugeruje to, że postępy O seriarze obejmują nie tylko większą inteligencję, ale także poprawę wydajności obliczeniowej.

Ogólnie rzecz biorąc, dane dotyczące wydajności z OpenAI wskazują, że O3 często ustawia znak wysokiej wody, szczególnie w złożonych operacjach agencyjnych i zadaniach multimodalnych. Jednocześnie O4-Mini okazuje się bardzo zdolnym i szczególnie wydajnym modelem, często dopasowującym lub nawet przekraczającym O3 w określonych testach rozumowania i kodowania, jednocześnie oferując znaczne oszczędności kosztów w porównaniu z O3-Mini. Oba nowe modele reprezentują wyraźny i znaczący krok naprzód w stosunku do poprzednich ofert OpenAI w większości testowanych możliwości.

Testowanie bezpieczeństwa sprężonego bezpieczeństwa obawy

Szybkie wdrażanie serii O Openai wzbudziło obawy wewnętrznie i zewnętrznie. Firma niedawno zaktualizowała swoje ramy gotowości, aby umożliwić rozluźnienie niektórych protokołów bezpieczeństwa, jeśli rywala zwolni model wysokiego ryzyka bez podobnych zabezpieczeń. Firma napisała: „Jeśli inny deweloper AI Frontier wypuści system wysokiego ryzyka bez porównywalnych zabezpieczeń, możemy dostosować nasze wymagania.”

Pojawiło się wśród doniesień, że wewnętrzne testy O3 zostały skompresowane od kilku miesięcy do mniej niż jednego tygodnia.

JOHANNES HEIDECKE, Openai. Czy.”Dodał, że automatyzacja pozwoliła na szybsze oceny bezpieczeństwa.

Jednym z obszarów niepokoju jest wybór Openai do przetestowania pośrednich punktów kontrolnych modeli, a nie wersji końcowych. Były pracownik ostrzegł: „Złą praktyką jest uwolnienie modelu, który różni się od tego, który oceniłeś.”

Zaktualizowane ramy wprowadziły również nowe kategorie śledzenia i badań, aby monitorować ryzyko, takie jak replikacja autonomiczna, manipulacja nadzorem i planowanie długoterminowe.

Google DeepMind i antropiczne przyjęły więcej ostrożnych podejść. DeepMind zaproponował globalne ramy bezpieczeństwa AGI na początku kwietnia, podczas gdy antropic wydał zestaw narzędzi interpretacyjności, aby podjąć decyzje Claude bardziej przejrzyste. Jednak obie firmy stanęły w obliczu kontroli-wrażliwości na usunięcie zobowiązań dotyczących polityki publicznej, oraz DeepMind za oferowanie ograniczonych szczegółów egzekwowania.

Openai, z kolei opłacają możliwości, które zbliżają swoje modele do bycia niezależnymi aktorami w systemie. Modele O3 i O4-Mini nie są po prostu mądrzejsze-działają według własnego wyroku.

Konkurs przesuwa możliwości agenta do przodu

Strategia Openai rozgrywa się w stosunku do konkurencyjnego krajobrazu, w którym rywale ścigają się, aby zdefiniować przyszłość rozumowania AI. Microsoft zintegrował już model O3-Mini-High z bezpłatnym poziomem Copilot. Niedawno firma uruchomiła funkcję Copilot Studio, które pozwala agentom AI na bezpośrednią interakcję z aplikacjami stacjonarnymi i stronami internetowymi. Agenci te mogą symulować działania użytkowników, takie jak klikanie przycisków lub wprowadzanie danych-szczególnie przydatne, gdy interfejsy API nie są dostępne.

Tymczasem linia modelu GPT-4.1 Openai, uruchomiona 14 kwietnia, została udostępniona wyłącznie za pośrednictwem interfejsu API. Ta linia jest zoptymalizowana pod kodowaniem, monity o długim kontekście i opieranie instrukcji, ale brakuje mu autonomicznego użycia narzędzia-wyróżniając się strategią segmentacji Openai między modelami GPT a serią O.

od asystenta do agenta

z wydaniem O3 i O4-Mini, Chatgpt weszła nowa faza. Modele nie tylko udzielają odpowiedzi-planują, rozum i wybierają sposób działania. Niezależnie od tego, czy analizuje artykuł naukowy, debugowanie kodu czy dostosowywanie obrazu, modele te mogą teraz zdecydować, jakie kroki należy podjąć bez oczekiwania na instrukcje.

Openai nazywa to początkiem zachowania podobnego do agenta. Ale systemy agentów również budzą nowe obawy: jak przejrzyste jest ich rozumowanie? Co się stanie, gdy wykonują złe połączenie lub nadużywają narzędzia? Te pytania nie są już teoretyczne. Jak O3 i O4-Mini wprowadzają miliony użytkowników, rzeczywistą wydajność-i odpowiedzialność-wkrótce zostaną przetestowane.

Categories: IT Info