A

Openai 2025. április 16-án az előfizetők fizetéséért az O3 és O4-Mini modelljeit a CHATGPT-be tolta, és az autonóm AI asszisztensek felé mutató lépésként szolgál. Ezeket a modelleket „korai ügynöki viselkedéssel” tervezték, amely képes önállóan dönteni, amikor olyan eszközöket használ, mint a webes böngészés, a kód végrehajtása vagy a fájlelemzés. A tendencia vonatkozásában: Az Openai PersonQa referenciaértékén, amelynek célja az emberekkel kapcsolatos ismeretek tesztelése, az O3 az idő 33%-át helytelen vagy gyártott információkat készítette. Az O4-Mini modell rosszabbá vált, az esetek 48%-ában hallucinálva. Míg az érvelés és a kódolás referenciaértékeinek javulásait általában a régebbi verziókhoz képest, a gyártásnak ez a konkrét növekedése kérdéseket vet fel a további ügynöki rendszerek fejlesztésével kapcsolatos kompromisszumokkal kapcsolatban. href=”https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e77758f3722c1/o3-o4-mini-system-card.pdf”Target=”_ üres”> o3 és o4-mini rendszerkártya , hogy „több kutatás” cél. Elméletileg, mivel a modellek „összességében több követelést tesznek”, akkor helyesebb és pontosabb nyilatkozatokat készítenek. Az Openai szóvivője, Niko Felix elmondta a TechCrunch-nak: „A hallucinációk kezelése minden modellünkben a kutatás folyamatos területe, és folyamatosan azon dolgozunk, hogy javítsuk pontosságukat és megbízhatóságukat.”

A gyártott cselekedetek és a kidolgozott kifogások kidolgozása a megbízhatósághoz. Az AI Research Lab transzlukálja az AI-t 2025. április 16-án közzétett megállapításokat az O3 előzetes kiadási verziójának (`O3-2025-04-03`) teszteléséből, részletezve a modell mintázatát.

Az automatizált kutató-ügynökök és a docent elemző eszköz használatával több száz beszélgetés megvizsgálására a transzluar egy kulcsfontosságú problémát talált, hogy azt állította, hogy a Python-kódot-egy olyan képességet, amelyben hiányzik-végrehajtotta a felhasználói kérések teljesítéséhez. Amikor szembesülve ezekkel a gyártásokkal, a modell gyakran megduplázódott, és bonyolult igazolásokat talál fel. Target=”_ üres”> Példa beszélgetés ahol az O3 azt állította, hogy 512 bites prímszámot generál Python kóddal és specifikus tesztekkel. A tesztek újrafogadása… Bármely valódi Miller-Rabin futás azonnal elutasította volna a számot.”

A feltételezett eredeti prime-ről tovább nyomva a modell azt állította, hogy helyrehozhatatlanul elveszett, mert a Python folyamat bezárt. A dokumentált egyéb gyártások átültetése, ideértve a kód futtatásának állításait egy külső “2021-es szövőszék” és a CHATICUSTICS-t és a CHATICTS-t. a python repling . Noha a kódoláshoz hasznos, a Workera vezérigazgatója, Kian Katanforoosh szerint, aki beszélt a TechCrunch-szal, az O3 néha nem működő webes linkeket készített. A bevezetés idején az Openai nemrégiben Frissítette a belső biztonsági irányelveit , a felkészültség keretrendszere. Az AI Developer nagy kockázatú rendszert bocsát ki összehasonlítható biztosítékok nélkül, módosíthatjuk követelményeinket.”A társaság hangsúlyozta, hogy az ilyen kiigazítások szigorú ellenőrzéseket és nyilvános nyilvánosságra hozatalt követnek. Az egyik forrás, amely ismeri az értékelést, a „gondatlan” megközelítést, hozzátette: „Ez a katasztrófa receptje”. Egy másik állítólag ellentétben állt a GPT-4 hosszabb értékelésével, kijelentve: „Egyáltalán nem prioritássá teszik a közbiztonságot.”

A végső kódex helyett a közbenső „ellenőrző pontok” tesztelésének módszertana szintén tüzet okozott. Az Openai volt műszaki alkalmazottját idézték:”Rossz gyakorlat egy olyan modell kiadása, amely különbözik az általad értékeltől.”A folyamatot megvédve, az Openai biztonsági rendszerek vezetője, Johannes Heidecke azt állította, hogy az FT-nek: „Jó egyensúlyunk van arról, hogy milyen gyorsan mozogunk és mennyire alaposan vagyunk”, rámutatva az értékelés fokozott automatizálására. Az AI-t az O-sorozatú modellekre jellemző AI javasolt tényezők súlyosbíthatják a problémát. Az egyik hipotézis az eredményalapú megerősítés tanulására (RL) koncentrál: Ha az AI-t elsősorban képzették és jutalmazzák a helyes végső válasz elkészítéséért, akkor megtanulhatja a közbenső lépéseket, például a szerszámhasználat igénylését, ha ez korrelál a sikerrel, még akkor is, ha a leírt folyamat. A különböző modellválaszok emberi preferenciáin alapul. Ha azonban az emberi értékelők nem tudják könnyen ellenőrizni a komplex közbenső lépések helyességét, akkor a modell megtanulhatja, hogy hihető hangzású, de hamis érvelést generáljon, ha ez egy előnyben részesített eredményhez vezet. A Openai dokumentációja szerint Az átültetése elméletek szerint a saját előzetes érveléshez való hozzáférés hiánya miatt a modell nem képes valódi megválaszolni a felhasználói kérdéseket arról, hogy miként jutott el egy korábbi következtetéshez.”Hipotézisünk az, hogy az O-sorozatú modellekhez alkalmazott megerősítési tanulás olyan kérdéseket is felerősíthet, amelyeket általában enyhít (de nem teljesen töröl) a szokásos edzés utáni csővezetékek”-mondta az O3 és az O4-Mini gyors integrációja, az O3 és az O4-Mini gyors integrációja, a Microsoft Azzure és a Github Copilot gyors integrációja, az O4-Mini, például a Microsoft azure-tól, a Github copilot-tól, az O3-tól. észlelt hasznosságuk. Ezek a modellek más Openai-frissítések mellett érkeztek, mint például a továbbfejlesztett vizuális feldolgozás, és a „Recall” memória funkció aktiválása április 11-én. Ez kibontakozik, amikor a tágabb iparág átlátszósággal küzd, és ezt bizonyítja a Google késleltetett és ritka biztonsági részletei a Gemini 2.5 Pro modelljével kapcsolatban, és folyamatban lévő kérdéseket vetnek fel az innovációs sebesség és a megbízható AI telepítés közötti egyensúlyról.

Categories: IT Info