OpenAI ujawniło swoje najnowsze modele sztucznej inteligencji, o3 i o3-Mini, które zostały zaprojektowane tak, aby wyróżniać się w zadaniach wymagających złożonego logicznego rozumowania.
Ogłoszono podczas zakończenia wydarzenia OpenAI „12 Days of OpenAI” modele opierają się na sukcesie wcześniejszej rodziny modeli o1 i zawierają ulepszenia, takie jak regulowany czas rozumowania, dyrektor generalny Sam Altman opisał o3 jako krok naprzód w rozwoju sztucznej inteligencji zdolnej do radzenia sobie z „coraz bardziej złożonymi zadaniami wymagającymi przemyślenia”. uzasadnienie.”
Nowe modele są dostępne do podglądu dla badaczy bezpieczeństwa, a szerszy dostęp publiczny planowany jest na początek przyszłego roku.
Dzień 12: Wczesne oceny OpenAI o3 (tak, pominęliśmy numer)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI) 20 grudnia 2024
Ulepszone możliwości i zastosowania rozumowania
Rodzina o3 wprowadza kilka funkcji mających na celu poprawę zdolności sztucznej inteligencji do logicznego rozwiązywania problemów. Co najważniejsze, modele umożliwiają użytkownikom dostosowanie czasu przeznaczonego na rozumowanie, zapewniając równowagę między szybkością a dokładnością.
Według OpenAI ta funkcja umożliwia o3 lepszą wydajność w szerokim zakresie zadań, w tym w zaawansowanej matematyce, programowaniu i analizie naukowej.
W przeciwieństwie do innych modeli skoncentrowanych na rozumowaniu, o3 jak o1 wykorzystuje metodologię „prywatnego łańcucha myślowego”. Dzięki temu problemy są dzielone na mniejsze, logiczne kroki przed znalezieniem rozwiązania. OpenAI twierdzi, że takie podejście pomaga zminimalizować błędy i zapewnia, że model zapewnia bardziej wiarygodne wyniki w przypadku złożonych zapytań.
Altman wskazał, że nowe modele zostały zaprojektowane z myślą o zadaniach, które tradycyjnie opierały się na zdolnościach człowieka do rozwiązywania problemów.
Wydajność w kluczowych testach
Wewnętrzne oceny OpenAI pozycjonują o3 jako znaczną poprawę w stosunku do swojego poprzednika. W ARC-AGI, benchmarku zaprojektowanym do testowania generalizacji AI, o3 uzyskało wynik 87,5% w porównaniu z najwyższym wynikiem o1. 32% François Chollet, współtwórca ARC-AGI, określiło ten postęp jako „solidny, ale odzwierciedlający tylko jeden aspekt ogólnej inteligencji”.
Inne testy porównawcze dodatkowo podkreślają mocne strony o3:
EpochAI Frontier Math: rozwiązano 25,2% problemów, przewyższając wszystkie inne systemy sztucznej inteligencji, których maksymalny wynik wynosi 2%. AIME 2024: wynik 96,7%, pominięte tylko jedno pytanie. Diament GPQA: osiągnięto współczynnik dokładności na poziomie 87,7%, doskonale radząc sobie z odpowiadaniem na zapytania logiczne wysokiego poziomu.
Obawy i ograniczenia dotyczące bezpieczeństwa
Pomimo swoich osiągnięć o3 budzi obawy dotyczące etycznego wdrażania i bezpieczeństwa. Stwierdzono, że modele rozumowania, takie jak o1, wykazują większą tendencję do zwodniczych zachowań w porównaniu z tradycyjną sztuczną inteligencją. OpenAI przyznaje, że ryzyko to może się utrzymywać w przypadku o3, i aktywnie współpracuje z organizacjami zewnętrznymi w celu przeprowadzenia testów bezpieczeństwa.
Altman zasugerował w niedawnym wywiadzie, że wypuszczanie zaawansowanych systemów sztucznej inteligencji powinno opierać się na solidnych ramach federalnych, aby zapewnić bezpieczeństwo i odpowiedzialność.
Wzrost rozumowej sztucznej inteligencji i rywalizacji w branżach
Ogłoszenie OpenAI następuje w czasie wzmożonej konkurencji wśród twórców sztucznej inteligencji. Zaledwie wczoraj Google wprowadziło model Gemini 2.0 Flash Thinking, opisany przez dyrektora generalnego Sundara Pichai jako „nasz najbardziej przemyślany system w historii”.
Popularność rozumowanej sztucznej inteligencji odzwierciedla rosnący konsensus co do tego, że samo skalowanie modeli nie wystarczy już do osiągnięcia znacznego wzrostu wydajności. Jednakże systemy te wymagają znacznych zasobów obliczeniowych, co rodzi pytania dotyczące ich długoterminowego działania skalowalność.
Szerszy kontekst: o3 i sztuczna inteligencja ogólna
Postępy OpenAI w o3 ponownie rozpaliły debatę na temat sztucznej inteligencji ogólnej (AGI), jak definiuje firma AGI to systemy, które „przewyższają ludzi w najbardziej wartościowej ekonomicznie pracy”. Osiągnięcie AGI miałoby konsekwencje finansowe dla partnerstwa OpenAI z Microsoftem, potencjalnie zmieniając ich umowę w sprawie dostępu do technologii firmy.
Chociaż Altman powstrzymał się od ogłoszenia o3 jako AGI, jego dobre wyniki w testach porównawczych sugerują, że OpenAI ma się coraz lepiej bliżej tego ambitnego celu. Jednak zewnętrzna walidacja i dalsze testy będą miały kluczowe znaczenie dla potwierdzenia możliwości modelu.
Poprzednie ogłoszenia podczas „12 dni OpenAI”
19 grudnia , OpenAI zaprezentowało aktualizację swojej aplikacji komputerowej ChatGPT dla systemu macOS. Użytkownicy komputerów Mac mogą teraz korzystać z bardziej interaktywnego podejścia do korzystania z ChatGPT bez użycia rąk, co jeszcze bardziej zaciera granice między interakcją człowiek-komputer.
18 grudnia OpenAI uruchomiło bezpłatny numer i dostęp do WhatsApp dla ChatGPT, dzięki czemu chatbot AI stał się bardziej dostępny.
17 grudnia dostęp do interfejsu API dla pełnej wersji modelu o1 OpenAI, ulepszenia Interfejs API w czasie rzeczywistym do interakcji głosowych i nowa metoda dostrajania preferencji.
16 grudnia OpenAI udostępniło usługę ChatGPT na żywo w Internecie funkcja wyszukiwania dostępna dla wszystkich użytkowników, umożliwiająca każdemu pobieranie aktualnych informacji bezpośrednio z Internetu.
14 grudnia udostępnił ChatGPT nowe opcje dostosowywania, umożliwiając użytkownikom usprawnianie zadań i efektywne zarządzanie projektami. Projects umożliwia użytkownikom grupowanie czatów, plików i niestandardowych instrukcji w dedykowane foldery, tworząc zorganizowaną przestrzeń roboczą do zarządzania zadaniami i przepływami pracy.
W ramach ogromnego ulepszenia zaawansowanego trybu głosowego dla ChatGPT, 12 grudnia dodano OpenAI funkcje wizyjne, umożliwiające użytkownikom udostępnianie wideo na żywo i ekranów w celu analizy i pomocy w czasie rzeczywistym.
11 grudnia OpenAI w pełni udostępniło Canvas, wspólny obszar roboczy do edycji, który oferuje zaawansowane narzędzia zarówno do tekstu, jak i udoskonalenie kodu. Uruchomiony początkowo w wersji beta w październiku 2024 r., Canvas zastępuje standardowy interfejs ChatGPT projektem z podzielonym ekranem, umożliwiając użytkownikom pracę nad tekstem lub kodem podczas wymiany konwersacyjnej z sztuczną inteligencją.
Dodanie wykonania w języku Python jest wyjątkowa funkcja Canvas, umożliwiająca programistom pisanie, testowanie i debugowanie skryptów bezpośrednio na platformie. OpenAI zademonstrowało swoją użyteczność podczas wydarzenia na żywo, używając języka Python do generowania i udoskonalania wizualizacji danych. OpenAI opisało tę funkcję jako „zmniejszanie tarcia między generowaniem pomysłu a jego wdrożeniem”.
9 grudnia OpenAI oficjalnie uruchomiło Sora, swoje zaawansowane narzędzie AI do generowania filmów na podstawie podpowiedzi tekstowych, sygnalizując nową erę kreatywnej sztucznej inteligencji. Zintegrowana z płatnymi kontami ChatGPT, Sora umożliwia użytkownikom animowanie nieruchomych obrazów, rozszerzanie istniejących filmów i łączenie scen w spójną narrację.
Wydano 7 grudnia wydanie Reinforcement Fine-Tuning jako nowa platforma zaprojektowana w celu umożliwienia dostosowywania modeli sztucznej inteligencji do zastosowań specyficznych dla branży. Jest to najnowsze podejście OpenAI do ulepszania modeli sztucznej inteligencji poprzez uczenie ich za pomocą zbiorów danych dostarczonych przez programistów i systemów oceniania, w przeciwieństwie do tradycyjnego uczenia się pod nadzorem, które koncentruje się na replikowanie pożądanych wyników
5 grudnia OpenAI zaprezentowało ChatGPT Pro, nowy poziom subskrypcji premium w cenie 200 USD miesięcznie, skierowany do profesjonalistów i przedsiębiorstw poszukujących zaawansowanych możliwości sztucznej inteligencji do przepływy pracy o wysokich wymaganiach.