OpenAI a dezvăluit Reinforcement Fine-Tuning (RFT), un nou cadru conceput pentru a permite personalizarea modelelor AI pentru aplicații specifice industriei. Introdusă în timpul evenimentului OpenAI „12 Days of OpenAI”, RFT permite dezvoltatorilor să îmbunătățească capacitățile de raționament AI cu seturi de date și rubrici de evaluare specifice domeniului.

Noua funcție, destinată întreprinderilor și cercetătorilor, se aliniază eforturilor mai ample ale OpenAI. pentru a reduce decalajul dintre modelele AI generalizate și nevoile specializate ale industriei.

Însoțirea RFT este lansarea Planului ChatGPT Pro din partea Prima zi a „12 Days of OpenAI“, un abonament de 200 USD pe lună, conceput pentru profesioniști. Planul include o1 Pro Mode, prezentat drept cel mai de încredere AI de raționament al OpenAI, evaluările timpurii ale modului o1 Pro dezvăluie atât potențialul și limitările sale, evidențiind provocările în curs de desfășurare în perfecționarea sistemelor AI avansate pentru utilizare practică.

Ce este reglarea fină a armăturilor?

Reinforcement Fine-Tuning este cea mai recentă abordare a OpenAI pentru îmbunătățirea modelelor AI prin instruirea acestora cu seturi de date și sisteme de clasificare furnizate de dezvoltatori. Spre deosebire de învățarea tradițională supravegheată, care se concentrează pe replicarea rezultatelor dorite, RFT pune accent pe raționament și rezolvarea problemelor adaptate unor domenii specifice.

În anunțul său, OpenAI a descris RRFT ca un instrument care permite organizațiilor să antreneze modele de experți fără a necesita cunoștințe profunde despre consolidare învățarea.
 
[conținut încorporat]

Primii adoptatori, cum ar fi Thomson Reuters și Berkeley Lab, și-au demonstrat deja utilitatea, spune OpenAI. Thomson Reuters a folosit RFT pentru a dezvolta un asistent juridic capabil să analizeze texte juridice complexe, în timp ce Berkeley Lab l-a aplicat cercetării genetice, descoperind perspective asupra bolilor rare.

Construind pe inovațiile anterioare

RFT și o1 Pro Mode sunt cele mai recente etape în eforturile OpenAI de a rafina performanța și alinierea AI. La începutul acestui an, OpenAI a introdus CriticGPT, un instrument conceput pentru a ajuta formatorii umani în evaluarea rezultatelor generate de AI.

CriticGPT a fost deosebit de eficient în revizuirea codului, identificând erorile pe care adnotatorii umani le ignoră adesea. Combinând expertiza umană cu evaluarea AI, OpenAI își propune să îmbunătățească fiabilitatea modelelor sale.

Concurenți precum Microsoft avansează, de asemenea, metodologii de instruire AI. Modelele de limbaj cu autoexplorare (SELM) ale Microsoft folosesc funcțiile de recompensă pentru a îmbunătăți capacitățile de urmărire a instrucțiunilor.

Anticiparea GPT-4.5

Așa cum OpenAI „12 Campania Days of OpenAI” continuă, speculațiile cu privire la GPT-4.5 sunt în creștere. Se așteaptă să debuteze mai târziu în această lună, se zvonește că GPT-4.5 va oferi raționament îmbunătățit, capacități multimodale extinse și generare îmbunătățită de limbaj creativ Observatorii din industrie îl consideră o soluție potențială la limitările o1 Pro Mode, în special în sarcinile care necesită adaptabilitate și abstractizare.

Philip, dezvoltatorul respectatului SimpleBench. benchmark, a comentat potențialul GPT-4.5, declarând: „Nu există nicio modalitate de a justifica 200 USD pe lună doar pentru Modul Pro”. Adăugarea lui GPT-4.5 ar putea redefini propunerea de valoare a Planului ChatGPT Pro, abordând deficiențele actuale și extinzându-și atractivitatea către un public mai larg.

Introducerea modului RFT și o1 Pro marchează un pas înainte în OpenAI. misiunea de a alinia capacitățile AI cu cerințele din lumea reală. În timp ce aceste instrumente sunt promițătoare în aplicațiile specializate.

Categories: IT Info