OpenAI skär AI-säkerhetstestningstiden, vilket gnistrande oro bland modellstart rusar

ouenai står inför spetsiga frågor om sina säkerhetsprotokoll efter A Financial Times Republiced idag

med hänvisning till åtta källor som är bekanta med företagets verksamhet, säger rapporten att testningstidslinjer, som tidigare sträcker sig över månader, har komprimerats till bara dagar. This acceleration comes as OpenAI prepares for an imminent launch, possibly next week, of new models including the reasoning-focused o3, leaving some third-party and internal testers less than a week for crucial safety assessments.

The hurried schedule is reportedly driven by intense competitive pressures within the AI field, as OpenAI races against giants like Google and Meta, alongside startups like Elon Musk’s xAI. Hastigheten har emellertid höjt larm bland de som har till uppgift att utvärdera modellerna. “We had more thorough safety testing when [the technology] was less important,”one individual currently assessing the upcoming o3 model told the Financial Times.

They warned that as AI capabilities grow, so does the “potential weaponisation”and kännetecknade det nuvarande tillvägagångssättet som”hänsynslöst”, tillägger,”men eftersom det finns mer efterfrågan på det, vill de ha det snabbare. Jag hoppas att det inte är en katastrofisk felsteg, men det är hänsynslöst. Detta är ett recept för katastrof.”

en annan testare, involverad i den GPT-4-utvärderingen i 2023 som spannade sex månader, återkallade den farliga FACT-FALDEN: EMTER LEDRE PERSIKT ATT PRODESEN:”De prioriterar bara inte allmän säkerhet alls.”Daniel Kokotajlo, en före detta OpenAI-forskare, framhöll miljön som möjliggör detta rusning:”Det finns ingen reglering som säger att [företag] måste hålla allmänheten informerad om alla skrämmande kapaciteter… och även de är under massor av press för att tävla med varandra så att de inte kommer att sluta göra dem mer kapabla.”

detta säkerhetsdekkoncid med ett betydande skifte för att de inte kommer att stoppa dem. VD Sam Altman bekräftade en”förändring av planerna”den 4 april och uppgav att företaget skulle släppa O3-och O4-Mini-resonemangsmodellerna”förmodligen under ett par veckor”, och pressade den efterlängtade GPT-5-lanseringen av”några månader.”

Detta omvänd en tidigare plan från februari för att konsolidera kapacitet till GPT-5. Altman förklarade att beslutet delvis var att”avkoppla resonemangsmodeller och chatt-/kompletteringsmodeller”, tillägg via X att”vi är glada över den prestanda vi ser från O3 internt”och att förseningen skulle tillåta GPT-5 att vara”mycket bättre än vi ursprungligen [t].”

ytterligare bevis på den involverade lanseringen kom fram 10 april, när Engineer tibor BLAHO SPOTERADE KODE TILL TILL OM 3 `, O3,,”, `O4-mini` och` O4-mini-High` i en chatgpt-webbuppdatering. Samtidigt föreslår rapporter en uppdaterad multimodal modell, tentativt namngiven GPT-4.1, också närmar sig frisläppandet.

långvariga frågor om testpraxis

utöver det komprimerade schemat, har specifika oro för djupet i OpenAI: s testning dykt upp. Kritiker ifrågasätter företagets åtagande att bedöma missbrukspotential, som att hjälpa biovapenskapande, genom finjustering. Denna process involverar att utbilda en modell på specialiserade datasätt (som virologi) för att se om den utvecklar farliga kapaciteter.

ändå, enligt tidigare OpenAI-säkerhetsforskare Steven Adler och andra citerade av FT, har denna detaljerade testning varit begränsad, främst med äldre modeller som GPT-4O, utan publicerade resultat för nyare, mer kapabla modeller som O1 eller o3-MINI. Enligt Adler, vars åsikter var detaljerade i ett blogginlägg , bristen på att rapportera om nyare modeller lämnar finjusterade kapaciteter. Kan betyda att OpenAI och de andra AI-företagen underskattar de värsta riskerna med sina modeller.”En annan kritik involverar testning av tidigare modellversioner, eller”kontrollpunkter”, snarare än den slutliga koden som släppts till allmänheten.”Det är dålig praxis att släppa en modell som skiljer sig från den du utvärderade,”berättade en före detta OpenAI-teknisk anställd till Ft.

ouenai försvarar sin praxis, med hänvisning till effektivitet som uppnåtts genom automatisering och uttrycker förtroende för dess metoder. Företaget uppgav att kontrollpunkter var”i princip identiska”till slutliga utgåvor och att modeller testas noggrant, särskilt för katastrofala risker. Johannes Heidecke, OpenAI’s head of safety systems, asserted, “We have a good balance of how fast we move and how thorough we are.”

The company also recently launched its OpenAI Pioneers Program on April 9, focusing on collaborating with Startups på”domänspecifika”utvärderingar och modelloptimering med Armering Fining (RFT) -En teknik för att skapa specialiserade”expertmodeller”för smala tasks. Detta initiativ verkar emellertid tydligt från de grundläggande utvärderingarna före utsläpp som enligt uppgift förkortas.

En historia av interna säkerhetsdebatter

spänningen mellan produkthastighet och säkerhetsprotokoll vid OpenAI är inte ny. I maj 2024 fokuserade Jan Leike, då medledande för företagets superjusteringsteam på långsiktiga AI-risker och konstaterade offentligt att under de senaste åren har”säkerhetskultur och processer tagit en baksäte till glänsande produkter.”Hans avgång och senare förenade antropiska signalerade djupa oenigheter om resurser och prioriteringar när det gäller långsiktig AI-säkerhetsforskning. Noterbart hade OpenAI meddelat bildandet av en styrelseledad säkerhets-och säkerhetskommittén bara några dagar tidigare, i uppdrag med en 90-dagarsperiod för att utvärdera och utveckla säkerhetsprocesser och göra rekommendationer.

OpenAI: s rapporterade accelerationskontrakt med nyligen publicerade offentor. Den 28 mars detaljerade Anthropic sin ramverk för tolkbarhet, ett”AI-mikroskop”med Dictionary Learning Att dissekera sin claude-modell. Ordbokinlärning försöker omvända modellens interna beräkningar och kartlägga dem till förståeliga koncept. Anthropic inramade detta som väsentligt för förtroende. På liknande sätt föreslog Google DeepMind en global AGI-säkerhetsram den 3 april, som förespråkade för internationell övervakning och behandla avancerade AI-risker som omedelbart. Detta förslag följde bildandet av DeepMinds egen AI-säkerhets-och anpassningsorganisation tidigare 2024.

reglerande landskap och pågående risker

Det bredare industrilandskapet visar komplexiteter. Anthropic, medan han pressade på för starkare regerings-AI-regler i början av mars, tog också tyst bort några av sina egna frivilliga säkerhetsåtaganden som gjordes under ett 2023 Vita husinitiativ, vilket illustrerar spänningen mellan offentligt positionering och operationellt tryck. OpenAI själv är part till frivilliga åtaganden med Storbritannien och amerikanska regeringar angående åtkomst för extern säkerhetstest, som nämnts i FT-rapporten.

Samtidigt skärper regelverket, även om Global Standards för föregående AI-lag nu, obligatorisk strängare transparens och riskreducering för högrisksystem, även om globala standarder för förhandsavstånd förblir oöverträffad. Behovet av robust testning understryks av pågående upptäckter av sårbarhet, till exempel”försenad verktygsinkallelse”-utnyttjande som finns i Google Geminis minne i februari, eller ihållande jailbreaking-tekniker som påverkar flera ledande modeller. Openais snabba utveckling fortsätter trots Altman Erkännande av potentiella kapacitetsutmaningar Tidigare denna månad, vilket kan påverka tidslinjer och servicestabilitet.

OpenAI skär AI-säkerhetstestningstiden, vilket gnistrande oro bland modellstart rusar

Published by All Things Windows on April 11, 2025

långvariga frågor om testpraxis

En historia av interna säkerhetsdebatter

reglerande landskap och pågående risker

IT Info

Fix”kan inte ansluta till RPC Service”-fel när du öppnar Realtek Audio Console

IT Info

OpenAI introducerar Flex API för att erbjuda billigare O3/O4-mini-åtkomst

IT Info

Microsoft skjuter ingenjörer efter protester stör 50-årsjubileum över Israel AI militära band

OpenAI skär AI-säkerhetstestningstiden, vilket gnistrande oro bland modellstart rusar

Published by All Things Windows on April 11, 2025

långvariga frågor om testpraxis

En historia av interna säkerhetsdebatter

reglerande landskap och pågående risker

Related Posts

IT Info

Fix”kan inte ansluta till RPC Service”-fel när du öppnar Realtek Audio Console

IT Info

OpenAI introducerar Flex API för att erbjuda billigare O3/O4-mini-åtkomst

IT Info

Microsoft skjuter ingenjörer efter protester stör 50-årsjubileum över Israel AI militära band