OpenAI și-a extins ofertele pentru dezvoltatori lansând versiunea completă a modelului său o1 prin intermediul API-ului său. Acest model de raționament avansat, care excelează la sarcini complexe, cu mai mulți pași, introduce noi caracteristici care promit să remodeleze modul în care dezvoltatorii construiesc aplicații bazate pe inteligență artificială.
Pe lângă modelul o1, OpenAI a anunțat și îmbunătățiri ale API-ului în timp real pentru interacțiunile vocale și o nouă metodă de reglare fină a preferințelor, oferind dezvoltatorilor o flexibilitate fără precedent.
O1-2024 Modelul-12-17 înlocuiește versiunea o1-preview lansată la începutul acestui an. Potrivit OpenAI, modelul actualizat oferă „răspunsuri mai cuprinzătoare și mai precise, în special pentru întrebările legate de programare și afaceri, și este mai puțin probabil să refuze cererile incorect.” Aceste îmbunătățiri, împreună cu o reducere cu 60% a utilizării token-ului de raționament, fac ca Modelul o1 mai rapid, mai eficient și mai versatil.
Avansarea raționamentului prin API cu modelul o1
Modelul o1 al OpenAI este conceput pentru a aborda sarcini care necesită consistență logică și profunzime analitică, depășind iterațiile anterioare benchmark-uri precum SWE-Bench Verified și AIME
OpenAI raportează că acuratețea sarcinilor de programare a crescut de la 52,3% la 76,6%, în timp ce performanța la problemele matematice a crescut de la 42% la aproape 80%.
Sursa: OpenAI O caracteristică remarcabilă este suportul structurat de ieșire, permițând dezvoltatorilor să genereze răspunsuri în formate predefinite, cum ar fi JSON. Acest lucru asigură integrarea perfectă cu sisteme externe, cum ar fi API-urile și bazele de date, făcând modelul ideal pentru aplicații de asistență pentru clienți, logistică și analiza datelor. Modelul introduce, de asemenea, capacități de raționament vizual, permițând analiza imaginilor pentru sarcini precum depanarea sau cercetarea științifică. De exemplu, dezvoltatorii pot acum introduce date vizuale, cum ar fi documente scanate sau planuri, și pot primi răspunsuri în funcție de context. În plus, un nou parametru de „efort de raționament” le permite dezvoltatorilor să controleze cât timp petrece modelul pentru fiecare sarcină, echilibrând precizia și eficiența. OpenAI a explicat pe blogul său: „În curs accesul treptat în timp ce lucrăm pentru a extinde accesul la niveluri de utilizare suplimentare și pentru a crește limitele de rată.” OpenAI a făcut, de asemenea, actualizări semnificative la API-ul în timp real, care stimulează interacțiunile vocale în timp real. Adăugarea WebRTC, Web Real-Time Communication — un protocol pentru comunicare cu latență scăzută — le permite dezvoltatorilor să creeze aplicații vocale fără întreruperi pentru tutori virtuali, asistenți și instrumente de traducere. Permite conexiuni peer-to-peer (P2P) fără a necesita pluginuri sau software suplimentare. OpenAI a evidențiat avantajele WebRTC, afirmând, „În scenariile în care doriți să vă conectați la un model în timp real de la un client nesigur prin rețea (cum ar fi un browser web), vă recomandăm să utilizați WebRTC metoda de conectare. WebRTC este mai bine echipat pentru a gestiona stări variabile de conexiune și oferă o serie de API-uri convenabile pentru captarea intrărilor audio ale utilizatorului și redarea fluxurilor audio de la distanță din model.” Implementarea WebRTC utilizează așa-numitele simboluri efemere, chei API temporare concepute special pentru autentificarea în siguranță a aplicațiilor la nivelul clientului atunci când vă conectați la API-ul OpenAI Realtime prin WebRTC. Scopul lor este de a asigura un mecanism de autentificare sigur, de scurtă durată, care evită expunerea cheilor API standard sensibile direct în mediile client, cum ar fi browserele web. Imagine: OpenAI Actualizările la API-ul în timp real simplificați procesul de dezvoltare, reducând codul necesar pentru aplicațiile de voce, îmbunătățind în același timp calitatea audio și acuratețea răspunsului. Dezvoltatorii pot acum să creeze aplicații care încep să formuleze răspunsuri în timp ce utilizatorii încă vorbesc, sporind capacitatea de răspuns. Ajustările de preț fac aplicațiile vocale mai accesibile. Costul jetoanelor audio GPT-4o a fost redus cu 60%, în timp ce jetoanele de intrare stocate în cache sunt acum cu 87,5% mai ieftine. OpenAI a introdus, de asemenea, GPT-4o mini, o opțiune rentabilă pentru dezvoltatorii care caută alternative accesibile, la un preț de 10 USD per milion de jetoane de intrare. Reglarea fină a preferințelor este o nouă metodă de personalizare care permite dezvoltatorilor să perfecționeze comportamentul modelului pe baza comparațiilor pereche ale răspunsurilor. Spre deosebire de reglarea fină tradițională, care se bazează pe perechi exacte de intrare-ieșire, reglarea fină a preferințelor învață modelul să facă distincția între răspunsurile preferate și cele mai puțin dorite. OpenAI descrie această metodă ca fiind deosebit de eficientă pentru sarcini subiective, cum ar fi ca adaptarea tonului și stilului în scrierea creativă sau asigurarea conformității cu cerințele specifice de formatare. Potrivit OpenAI, cei care au adoptat-o timpurie, cum ar fi o firmă de analiză financiară, au raportat că reglarea preferințelor a îmbunătățit acuratețea răspunsului cu 5% pentru interogări complexe, în afara distribuției. „Am început să testăm reglarea fină a preferințelor cu parteneri de încredere care au văzut rezultate promițătoare până acum. De exemplu, Rogo AI(se deschide într-o fereastră nouă) creează un asistent AI pentru analiștii financiari care descompune interogările complexe în subinterogări. Folosind criteriul lor de referință creat de experți, Rogo-Golden, ei au descoperit că, în timp ce reglarea fină supravegheată s-a confruntat cu provocări legate de extinderea interogărilor în afara distribuției, cum ar fi valori lipsă precum ARR pentru interogări precum „cât de rapid este compania X în creștere”—Preference Fine-Tuning a rezolvat aceste probleme, îmbunătățind performanța de la 75% precizie în modelul de bază la peste 80%.” Pentru a susține o gamă mai largă de medii de programare, OpenAI a introdus și SDK-uri oficiale pentru Go și Java, alături de acestabibliotecile existente pentru Python, Node.js și.NET. Aceste SDK-uri simplifică integrarea, permițând dezvoltatorilor să implementați modele AI în sisteme de backend scalabile sau aplicații de întreprindere. Go SDK este proiectat pentru aplicații ușoare și eficiente de pe partea de server, în timp ce Java SDK se adresează soluțiilor de nivel enterprise, oferind tastare puternică și suport robust pentru proiecte de anvergură. Documentația OpenAI oferă îndrumări detaliate pentru utilizarea acestor noi instrumente.Îmbunătățirea interacțiunilor vocale cu API-ul în timp real
Rafinarea comportamentului AI cu reglajul fin al preferințelor
Extinderea opțiunilor SDK pentru dezvoltatori