OpenAI reduce timpul de testare a siguranței AI, stârnind îngrijorări pe fondul grabei de lansare a modelului

OpenAI se confruntă cu întrebări îndreptate cu privire la protocoalele sale de siguranță după un Financial Times Raport publicat astăzi dezvăluit că compania, acum, în valoare de $ 300bn, a fost dezvăluită că Perioadele de evaluare scurtate pentru cele mai noi modele AI.

citând opt surse familiarizate cu operațiunile companiei, raportul afirmă că calendarul de testare, care anterior s-au întins luni, au fost comprimate la doar zile. Această accelerație vine pe măsură ce Openai se pregătește pentru o lansare iminentă, eventual săptămâna viitoare, a unor noi modele, inclusiv a O3 axat pentru raționament, lăsând niște testatori terți și interni mai puțin de o săptămână pentru evaluări cruciale de siguranță.

Programul grăbit este condus de presiuni competitive intense în domeniul AI, în timp ce cursele Openai împotriva gianților precum Google și Meta, alături de startup-uri, precum Elon Musk. Cu toate acestea, viteza a ridicat alarmele în rândul celor însărcinați cu evaluarea modelelor.”Am avut mai multe testări de siguranță mai amănunțite atunci când [tehnologia] a fost mai puțin importantă”, a declarat în prezent o persoană care evalua în prezent modelul O3. și a caracterizat abordarea actuală ca fiind „nechibzuită”, adăugând, „dar, deoarece există o cerere mai mare pentru aceasta, o vor mai repede. Sper că nu este un pas greșit catastrofal, dar este nechibzuit. Aceasta este o rețetă pentru dezastru. Pur și simplu nu prioritizați deloc siguranța publică.”Daniel Kokotajlo, fost cercetător OpenAI, a subliniat mediul care a permis această grabă: „Nu există nicio reglementare care să spună că [companiile] trebuie să țină publicul informat cu privire la toate capacitățile înfricoșătoare. Și, de asemenea, sunt sub presiune pentru a face cursa reciprocă, astfel încât nu vor înceta să le facă mai capabile.”

Această dezbatere de siguranță coincide cu o schimbare semnificativă în strategia produsului Openai. CEO-ul Sam Altman a confirmat o „schimbare de planuri” pe 4 aprilie, afirmând că compania va elibera modelele de raționament O3 și O4-Mini „probabil în câteva săptămâni”, împingând lansarea GPT-5 foarte așteptată de „câteva luni”. Altman a explicat că decizia a fost parțial „de decuplare a modelelor de raționament și modele de chat/completare”, adăugând prin X că „suntem încântați de performanța pe care o vedem de la O3 intern” și că întârzierea ar permite GPT-5 să fie „mult mai bună decât am fost inițial inițial [T]. `O4-Mini` și` O4-Mini-High` într-o actualizare web Chatgpt. În mod concomitent, rapoartele sugerează că un model multimodal actualizat, numit tentativ GPT-4.1, se apropie, de asemenea, de lansare.

întrebări persistente despre practicile de testare

dincolo de programul comprimat, au apărut preocupările specifice cu privire la profunzimea testării lui Openai. Criticii pun la îndoială angajamentul companiei de a evalua potențialul de utilizare greșită, cum ar fi ajutorarea creării bioweaponului, prin reglarea fină. Acest proces implică instruirea unui model pe seturi de date specializate (cum ar fi virologia) pentru a vedea dacă dezvoltă capacități periculoase.

Cu toate acestea, potrivit fostului cercetător de siguranță OpenAI, Steven Adler și alții citați de FT, această testare detaliată a fost limitată, folosind în primul rând modele mai vechi precum GPT-4O, fără rezultate publicate pentru modele mai noi, mai capabile, precum O1 sau O3-MINI. Potrivit lui Adler, ale căror opinii au fost detaliate Într-un post de blog , lipsa de raportare a modelelor noi „a fost reglată cu funcții fine, el a spus publicului, nu a făcut ca un alt teste. Ar putea însemna Openai, iar celelalte companii AI subestimează cele mai grave riscuri ale modelelor lor.”O altă critică implică testarea versiunilor de model anterioare sau „punctele de control”, mai degrabă decât codul final lansat publicului. „Este o practică proastă să eliberezi un model diferit de cel pe care l-ai evaluat”, a declarat un fost membru al personalului tehnic OpenAI pentru Ft.

OpenAI își apără practicile, invocând eficiența obținută prin automatizare și exprimarea încrederii în metodele sale. Compania a declarat că punctele de control sunt „practic identice” cu versiunile finale și că modelele sunt testate în detaliu, în special pentru riscuri catastrofale. Johannes Heidecke, șeful sistemelor de siguranță al lui Openai, a afirmat: „Avem un echilibru bun despre cât de repede ne mișcăm și cât de minuțioși suntem. Cu startup-uri pe evaluări „specifice domeniului” și optimizarea modelului folosind Armare fină de reglare (RFT) -o tehnică pentru crearea de „modele de experți” specializate pentru sarcini restrânse. Cu toate acestea, această inițiativă apare distinctă de evaluările de siguranță fundamentale, de pre-eliberare, se pare că au fost scurtate.

Un istoric al dezbaterilor de siguranță internă

Tensiunea dintre viteza produsului și protocoalele de siguranță la OpenAI nu este nouă. În mai 2024, Jan Leike, apoi co-conducătorul echipei de superaligne a companiei s-a concentrat pe riscuri AI pe termen lung, afirmând public că, în ultimii ani, „cultura și procesele de siguranță au luat un loc din spate pentru produsele strălucitoare”. Plecarea sa și alăturarea ulterioară a dezacordului profund semnal au semnalat în ceea ce privește resursele și prioritățile în ceea ce privește cercetarea de siguranță pe termen lung. În special, Openai a anunțat formarea unui comitet de siguranță și securitate condus de consiliu cu doar câteva zile mai devreme, însărcinat cu o perioadă de 90 de zile pentru a evalua și dezvolta procesele de siguranță și a face recomandări.

rivalii industriei subliniază transparența și guvernanța

OpenAI contrastele de accelerație raportate cu stanțele publice recente de la concurenții cheie. Pe 28 martie, Antropic a detaliat cadrul său de interpretare, un „microscop AI” folosind Dicționar învățare pentru a diseca raționamentul modelului său de claude și a identifica riscurile. Învățarea dicționarului încearcă să inverseze calculele interne ale modelului, maparea lor către concepte inteligibile. Antropic a încadrat acest lucru ca fiind esențial pentru încredere. În mod similar, Google Deepmind a propus un cadru global de siguranță AGI pe 3 aprilie, pledând pentru supravegherea internațională și tratarea riscurilor avansate de AI ca imediat. Această propunere a urmat formarea organizației de siguranță și aliniere a AI-ului DeepMind, la începutul anului 2024.

peisaj de reglementare și riscuri continue

Peisajul industriei mai largi arată complexități. Antropic, în timp ce a făcut eforturi pentru reguli AI guvernamentale mai puternice la începutul lunii martie, a eliminat în mod liniștit unele dintre propriile sale angajamente de siguranță voluntare anterioare, făcute în cadrul unei inițiative din 2023 a Casei Albe, ilustrând tensiunea dintre poziționarea publică și presiunile operaționale. OpenAI în sine este parte la angajamente voluntare cu guvernele din Marea Britanie și SUA cu privire la accesul la testarea de siguranță externă, așa cum este menționat în raportul FT.

Între timp, cadrele de reglare se strâng, cu AI-ul UE acum, în vigoare, mandând transparența mai strictă și atenuarea riscurilor pentru sistemele cu risc ridicat, deși standardele globale pentru testarea prealabilă a siguranței rămâne nedefinită. Necesitatea testării robuste este subliniată de descoperirile de vulnerabilitate în curs de desfășurare, cum ar fi „invocarea cu instrumente întârziate” găsită în memoria Google Gemini în februarie sau tehnici persistente de închisoare care afectează mai multe modele de frunte. Dezvoltarea rapidă a lui Openai continuă, în ciuda Altman Recunoașterea provocărilor potențiale ale capacității la începutul acestei luni, care ar putea afecta termenele și stabilitatea serviciilor.

OpenAI reduce timpul de testare a siguranței AI, stârnind îngrijorări pe fondul grabei de lansare a modelului

Published by All Things Windows on April 11, 2025

întrebări persistente despre practicile de testare

Un istoric al dezbaterilor de siguranță internă

rivalii industriei subliniază transparența și guvernanța

peisaj de reglementare și riscuri continue

IT Info

Cum să ștergeți în vrac parola salvată în Google Chrome

IT Info

Cum să găsiți și să instalați noi distrosuri Linux în WSL

IT Info

Microsoft Copilot pe Windows primește viziune, căutare de fișiere în previzualizare

OpenAI reduce timpul de testare a siguranței AI, stârnind îngrijorări pe fondul grabei de lansare a modelului

Published by All Things Windows on April 11, 2025

întrebări persistente despre practicile de testare

Un istoric al dezbaterilor de siguranță internă

rivalii industriei subliniază transparența și guvernanța

peisaj de reglementare și riscuri continue

Related Posts

IT Info

Cum să ștergeți în vrac parola salvată în Google Chrome

IT Info

Cum să găsiți și să instalați noi distrosuri Linux în WSL

IT Info

Microsoft Copilot pe Windows primește viziune, căutare de fișiere în previzualizare