OpenAI a lansat miercuri gpt-oss-safeguard, o nouă familie de modele AI deschise, concepute pentru a le permite dezvoltatorilor să-și impună propriile reguli de siguranță a conținutului.
Compania a făcut două dimensiuni de model disponibile pe Hugging Face sub o licență Apache 2.0 permisivă, permițând utilizarea comercială gratuită.
Spre deosebire de instrumentele tradiționale de siguranță, pentru a interpreta și a aplica politicile tradiționale de siguranță pentru a scrie și a aplica aceste modele. în timp real. Această abordare oferă platformelor o metodă mai flexibilă și mai transparentă pentru moderarea conținutului.
Versiunea vine în timp ce OpenAI lucrează pentru a spori siguranța produselor sale pe fondul controlului public și al reglementărilor în creștere. Denumite gpt-oss-safeguard-120b și gpt-oss-safeguard-20b, noile modele sunt versiuni specializate ale familiei gpt-oss a companiei, care și-a marcat revenirea în noua scenă în august Trecând de la metodele tradiționale, noile modele introduc o abordare bazată pe raționament a clasificării conținutului. Clasificatorii standard de siguranță sunt de obicei instruiți pe mii de exemple etichetate manual de conținut sigur și nesigur. Ei învață să deducă o politică, dar nu văd niciodată regulile direct, ceea ce le face rigide și dificil de actualizat fără o reinstruire extinsă. gpt-oss-safeguard funcționează diferit. Este nevoie de două intrări simultan: o politică scrisă de dezvoltator și conținutul care trebuie judecat în funcție de aceasta. Folosind un proces de gândire, modelul motivează prin intermediul politicii să ajungă la o clasificare. Dezvoltatorii pot revizui acest raționament, oferind o pistă de audit clară pentru deciziile de moderare. Acest lucru face ca sistemul să fie foarte adaptabil pentru provocările de siguranță nuanțate sau care evoluează rapid, acolo unde nu există seturi mari de date etichetate. De exemplu, un forum de jocuri ar putea să-l folosească pentru a semnala discuții despre înșelăciune, sau un site de recenzii ar putea căuta mărturii false folosind propriile sale criterii unice. OpenAI sugerează că această metodă este mai puțin puternică în cazul în care eticheta de calitate critică este mai puțin puternică decât eticheta. Alegerea licenței Apache 2.0 este, de asemenea, o mișcare semnificativă, deoarece natura ei permisivă încurajează adoptarea pe scară largă și utilizarea comercială, eliminând barierele care există cu licențe mai restrictive. Într-o mișcare semnificativă pentru comunitatea open-source, OpenAI a dezvoltat mai multe organizații de siguranță, gptguard și discuții, inclusiv mai multe organizații de securitate, încredere și discuții. SafetyKit și ROOST (Instrumente de siguranță online robuste deschise). Această abordare de parteneriat își propune să construiască instrumente de siguranță cu contribuții directe din partea practicienilor care le vor folosi zilnic. Ca parte a lansării, ROOST înființează ROOST Model Community (RMC), o nouă inițiativă pe GitHub concepută pentru a reuni cercetătorii și experții în siguranță. Obiectivul său este de a împărtăși cele mai bune practici și de a îmbunătăți modelele spațiale IA open-source pentru protejarea online. Vinay Rao, CTO la ROOST, a lăudat designul modelului. „gpt-oss-safeguard este primul model de raționament cu sursă deschisă cu un design „aduceți propriile politici și definiții ale prejudiciului”. El a adăugat: „În testarea noastră, a fost priceput să înțeleagă diferite politici, să explice raționamentul și să arate nuanțe în aplicarea politicilor, despre care credem că va fi benefic pentru constructori și echipele de siguranță.” care a declarat: „Pe măsură ce AI devine mai puternică, instrumentele de siguranță și cercetarea fundamentală în materie de siguranță trebuie să evolueze la fel de repede – și trebuie să fie accesibile tuturor.” Pe fundalul unei presiuni intense de reglementare, compania lansează un nou instrument de siguranță, în special, la o zi. că sute de mii de utilizatori au conversații care implică autovătămare sau psihoză cu ChatGPT în fiecare săptămână, lansarea abordează în mod direct solicitările pentru o actualizare majoră de siguranță. Cu o valoare de 500 de miliarde de dolari și o bază de utilizatori care depășește 800 de milioane de utilizatori activi săptămânal, amploarea provocării de siguranță a OpenAI este imensă. companiei. OpenAI a dezvăluit că folosește un instrument intern similar, mai puternic, numit Safety Reasoner, ca componentă de bază a propriei stive de siguranță de „apărare în profunzime”. Acest sistem intern ajută la protejarea modelelor avansate precum GPT-5 și Sora 2 prin evaluarea dinamică a conținutului față de politicile în evoluție în timp real. Prin versiunea sa internă de siguranță deschisă, OpenAI lansează o abordare deschisă a AI. strategie disponibilă pentru ecosistemul mai larg al dezvoltatorilor. În ciuda abordării sale inovatoare, OpenAI este transparent cu privire la limitările modelelor. Pentru riscuri complexe, compania observă că un clasificator dedicat antrenat pe zeci de mii de eșantioane etichetate de înaltă calitate poate obține în continuare performanțe mai mari. Procesul de raționament necesită, de asemenea, mai mult timp și mai mult timp de calcul decât metodele tradiționale, ceea ce ar putea reprezenta o provocare pentru platformele care au nevoie să modereze volume masive de conținut la o latență foarte scăzută. În primul rând, atenuează mai mic acest Clasificator. identificați conținutul potențial problematic, care este apoi transmis celui mai puternic Safety Reasoner pentru o analiză detaliată. Această abordare pe niveluri este un model pe care dezvoltatorii l-ar putea adopta. Deocamdată, lansarea gpt-oss-safeguard marchează un pas esențial către construirea unor sisteme de siguranță AI mai transparente, adaptabile și bazate pe comunitate, oferind dezvoltatorilor un nou instrument puternic în lupta continuă pentru siguranța online.Colaborarea comunității și calea către siguranță deschisă
Contextul este cheia: o lansare în timp util în timpul controlului siguranței
Limitări și drumul de urmat