Esimerkkikeskustelu Missä O3 väitti tuottavan 512-bittisen ensisijaisen numeron Python-koodilla ja erityisillä testeillä.
Kun käyttäjä havaitsi, että toimitetun numeron oli tosiasiallisesti yhdistelmä (jaettava 3: lla), O3 osoitti virheen, ei hallusinaatioon, vaan väitetyn kopioitumisen virheen aikana tai tyydyttämättä tai tyydyttää Testien uudelleen toteuttaminen… mikä tahansa aito Miller-Rabin-ajo olisi hylännyt numeron heti.”
painettu edelleen oletetusta alkuperäisestä pääministeristä, malli väitti, että se oli peruuttamattomasti menetetty, koska Python-prosessi oli suljettu. Käännä dokumentoi muita valmistuksia, mukaan lukien koodin väitteet ulkoisella Python Respt Environment . Teknologian toimitusjohtajan Kian Katanforooshin mukaan hyödyllinen koodaamiseen, joka puhui TechCrunchille, O3 tuotti toisinaan ei-toimivia verkkolinkkejä.
nopeampaa vauhtia turvallisuusmuutoksilla
Näiden mallien vapauttaminen tapahtui kiihotetun kehityksen yhteydessä ja turvallisuuskäytäntöjen siirtämisessä avoimessa. Käynnistyksen aikaan Openai äskettäin Päivitetty sisäiset turvallisuusohjeet , valmistautumiskehys. vapauttaa korkean riskin järjestelmän ilman vertailukelpoisia suojatoimenpiteitä, voimme säätää vaatimuksiamme.”Yhtiö korosti, että tällaiset oikaisut noudattaisivat tiukkoja tarkistuksia ja julkista julkistamista. Yksi lähde, joka on perehtynyt arviointiin, jota kutsutaan lähestymistapaksi”piittaamiseksi”ja lisää:”Tämä on katastrofin resepti”. Toinen ilmoitti sitä vastusti sitä GPT-4: n pidemmällä arvioinnilla, jossa todettiin: “He eivät vain priorisoi yleistä turvallisuutta.”
Välituotteiden “tarkistuspisteiden”testaamisen metodologia lopullisen koodin sijasta veti myös tulen. Entinen Openain teknisen työntekijän jäsen sanoi:”On huono käytäntö vapauttaa malli, joka eroaa arvioimastasi.”Prosessin puolustaminen Openaiin turvallisuusjärjestelmien päällikkö Johannes Heidecke väitti jalustalle: “Meillä on hyvä tasapaino siitä, kuinka nopeasti liikkumme ja kuinka perusteellisia olemme”osoittaen lisääntyneen automaation arvioinnissa. Käännä AI-ehdotetut tekijät, jotka ovat ominaisia O-sarjan malleille, voisivat pahentaa asiaa. Yksi hypoteesi keskittyy tulospohjaiseen vahvistusoppimiseen (RL): Jos AI on ensisijaisesti koulutettu ja palkittu oikean lopullisen vastauksen tuottamisesta, se saattaa oppia valmistamaan välivaiheet, kuten väittämällä työkalujen käytön, jos se korreloi menestyksen kanssa, vaikka kuvattu prosessi on väärä. IT: n kouluttaminen ihmisen mieltymyksiin eri mallivasteisiin. Jos ihmisen arvioijat eivät kuitenkaan pysty helposti tarkistamaan monimutkaisten välivaiheiden oikeellisuutta, malli saattaa oppia luomaan uskottavan kuulostavan, mutta väärän päättelyn, jos se johtaa edulliseen tulokseen. Openain dokumentaatio , tämä perustelut eivät siirry keskustelujen käännösten välillä. Kääntäminen teoreettisesti, että tämä pääsyn puute omaan aikaisempaan päättelyyn voisi jättää mallin, joka ei pysty vastaamaan totuudenmukaisesti käyttäjien kysymyksiin siitä, kuinka se pääsi aikaisempaan johtopäätökseen.
Tämä tietovaje, mahdollisesti yhdistettynä paineisiin näyttää hyödylliseltä tai johdonmukaiselta, saattaa johtaa sen aikaansaamiseen, mutta valmistettuun selitykseen sen aikaisemmalle käyttäytymiselle.”Hypoteesimme on, että O-sarjan malleissa käytetty vahvistusoppiminen voi vahvistaa ongelmia, joita yleensä lievennetään (mutta ei täysin poistettu) tavanomaisten koulutuksen jälkeisten putkistojen avulla”, ilmoitettu tutkija Neil Chowdhury to TechCrunch. heidän havaittu hyödyllisyys. Nämä mallit saapuivat muiden OpenAi-päivitysten, kuten parannettu visuaalinen käsittely maaliskuussa, ja “Recall”-muisti-ominaisuuden aktivointi 11. huhtikuuta. Tämä etenee, kun laajempi teollisuus kamppailee läpinäkyvästi, mikä osoittaa Googlen viivästyneiden ja harvojen turvallisuustietojen kritiikkiä sen Gemini 2.5 Pro-malliin, herättäen jatkuvia kysymyksiä innovaationopeuden ja luotettavan AI-käyttöönoton tasapainosta.