Az OpenAI bemutatta legújabb mesterséges intelligencia modelljeit, az o3-at és az o3-Mini-t, amelyeket arra terveztek, hogy kiválóan teljesítsenek összetett logikai gondolkodást igénylő feladatokban.
Az OpenAI „12 Days of OpenAI” rendezvényének végén jelentették be. A modellek a korábbi o1 modellcsalád sikerére építenek, és olyan fejlesztéseket tartalmaznak, mint az állítható gondolkodási idő, az o3-at előrelépésként jellemezte a fejlesztésben A mesterséges intelligencia képes kezelni „egyre összetettebb, átgondolt érvelést igénylő feladatokat”.
Az OpenAI azt mondta, hogy nem nevezte el az új modelleket „o2″-nek, „tiszteletből” a brit távközlési márka iránt. Az új modellek előzetesen megtekinthetők a biztonsági kutatók számára, a tervek szerint a jövő év elejére szélesebb körű nyilvános hozzáférést biztosítanak.
12. nap: Az OpenAI o3 korai verziói (igen, kihagytunk egy számot)https://t.co/iWXg9IGuZM
– OpenAI (@OpenAI) december 20. 2024
Továbbfejlesztett érvelési képességek és alkalmazások
Az o3 család számos olyan funkciót vezet be, amelyek célja a mesterséges intelligencia logikai problémamegoldó képességének javítása. Leginkább az, hogy a modellek lehetővé teszik a felhasználók számára, hogy módosítsák az érvelésre szánt időt, egyensúlyt teremtve a sebesség és a pontosság között.
Az OpenAI szerint ez a képesség lehetővé teszi, hogy az o3 jobban teljesítsen a feladatok széles körében, beleértve a fejlett matematikát, programozást és tudományos elemzést.
Eltérően a többi érvelésre összpontosító modelltől, az o3 az o1-hez hasonlóan a „privát gondolatlánc” módszertant alkalmazza. Ez kisebb, logikus lépésekre bontja a problémákat, mielőtt megoldást kínálna. Az OpenAI szerint ez a megközelítés segít minimalizálni a hibákat és biztosítja hogy a modell megbízhatóbb eredményeket ad összetett lekérdezések esetén.
Altman jelezte, hogy az új modelleket olyan feladatok megoldására tervezték, amelyek hagyományosan az emberi problémamegoldó képességeken alapultak.
Teljesítmény a kulcsfontosságú referenciaértékeken
Az OpenAI belső értékelései jelentős előrelépést jelentenek az o3-ban az elődjéhez képest href=”https://arcprize.org/arc”>Az ARC-AGI, a mesterséges intelligencia általánosításának tesztelésére szolgáló benchmark, az o3 87,5%-ot ért el, szemben az o1 további 32%-os legmagasabb pontszámával emelje ki az o3 erősségeit:
EpochAI Frontier Math: az o3 a problémák 25,2%-át oldotta meg, minden mást felülmúlva AI-rendszerek, amelyek maximum 2%. A FrontierMath kiértékeli az AI-rendszerek képességeit a fejlett matematikai gondolkodásban. A benchmark több száz eredeti, kivételesen nagy kihívást jelentő matematikai feladatból áll, amelyek átfogják a modern matematika főbb ágait, beleértve a számítási számelméletet, a valós elemzést, az algebrai geometriát és a kategóriaelméletet.
AIME 2024: o3 pontszám 96,7%, csak egy kérdés hiányzott. Az AIME (Artificial Intelligence Math Evaluation) 2024 benchmark célja az AI modellek matematikai problémamegoldó képességeinek felmérése a 2024-es AIME vizsgák. Ez az értékelés olyan összetett matematikai kihívásokra összpontosít, amelyek hasonlóak az American Invitational Mathematics Examination során tapasztalt kihívásokhoz, amely az Egyesült Államokban a rendkívül tehetséges középiskolás matematikusok készségeinek teszteléséről ismert.
GPQA Diamond: 87,7%-os pontossági arányt ért el, kiváló a magas szintű logikai lekérdezések megválaszolásában. A GPQA Diamond diplomás szinten értékeli az AI-rendszerek képességeit a fejlett tudományos érvelésben a biológia, a fizika és a kémia területén. Ez a benchmark 198 kivételes kihívást jelentő feleletválasztós kérdésből áll, amelyeket úgy terveztek, hogy még a magasan képzett, nem szakértők számára is nehezek legyenek.
François Chollet, az ARC-AGI társalkotója ezt a fejlődést szilárdnak, de csak egy szempontot tükrözőnek írta le. az általános intelligencia.
Az OpenAI ma bejelentette az o3-at, a következő generációs gondolkodási modelljét. Az OpenAI-val együttműködve teszteltük az ARC-AGI-n, és úgy gondoljuk, hogy ez jelentős áttörést jelent abban, hogy a mesterséges intelligencia alkalmazkodjon az új feladatokhoz.
A félig privát eval 75,7%-át éri el alacsony szinten.-számítási mód (feladatonként 20 dollárért… pic.twitter.com/ESQ9CNVCEA
-François Chollet (@fchollet) 2024. december 20.
Chollet is megosztotta néhány példa olyan feladatokra, amelyeket az o3 nem tudott megoldani nagy számítási sebességű beállítások, amelyek további elemzés céljából elérhetők a GitHubon.
Szintén rendkívül fontos lesz elemezni az új rendszer erősségeit és korlátait. Íme néhány példa azokra a feladatokra, amelyeket az o3 nem tudott megoldani nagy számítási sebességű beállításokkal (még akkor sem milliónyi CoT keresési tokenek generálása és több ezer dollár számítási költség… pic.twitter.com/IULyjAlxwV
– François Chollet (@ fchollet) 2024. december 20.
Biztonsági aggályok és korlátozások
Eredményei ellenére az o3 emel az etikus telepítéssel és biztonsággal kapcsolatos aggodalmak. Azt találták, hogy az olyan érvelő modellek, mint az o1, nagyobb hajlamot mutatnak a megtévesztő viselkedésre, mint a hagyományos mesterséges intelligencia. Az OpenAI elismeri, hogy ezek a kockázatok az o3 esetében is fennállhatnak, és aktívan együttműködik külső szervezetekkel a biztonsági tesztek elvégzésében.
Altman egy nemrégiben készült interjúban azt javasolta, hogy a fejlett mesterséges intelligencia rendszerek kiadását robusztus szövetségi keretrendszernek kell vezérelnie annak biztosítása érdekében, hogy biztonság és felelősség.
Az érvelő mesterséges intelligencia és az iparági rivalizálás felemelkedése
Az OpenAI bejelentése a mesterséges intelligencia fejlesztői közötti fokozott verseny ideje. A Google éppen tegnap mutatta be Gemini 2.0 Flash Thinking modelljét, amelyet Sundar Pichai vezérigazgató „az eddigi legátgondoltabb rendszerünknek” nevez. Mindeközben az Alibaba és a DeepSeek is kiadott érvelésre összpontosító modelleket, jelezve az elmozdulást az AI-fejlesztés ezen speciális területe felé.
Az érvelő mesterséges intelligencia népszerűsége azt az egyre növekvő konszenzust tükrözi, hogy a modellek skálázása önmagában már nem elegendő a jelentős teljesítménynövekedéshez. Ezek a rendszerek azonban jelentős számítási erőforrásokat igényelnek, ami kérdéseket vet fel hosszú távú skálázhatóságukkal kapcsolatban.
Tágabb kontextus: o3 és mesterséges általános intelligencia
Az OpenAI fejlesztései Az o3-mal újra fellángolták a vitákat a mesterséges intelligenciáról (AGI). Az AGI elérése pénzügyi következményekkel járna az OpenAI és a Microsoft közötti partnerségre nézve, ami potenciálisan megváltoztatná a vállalat technológiáihoz való hozzáférésről szóló megállapodásukat.
Bár Altman nem nyilvánította AGI-nek az o3-at, a benchmarkokon elért erős teljesítménye azt sugallja, hogy az OpenAI beindult. közelebb ehhez az ambiciózus célhoz. A külső ellenőrzés és a további tesztelés azonban kritikus fontosságú lesz a modell képességeinek megerősítéséhez.
Korábbi közlemények a „12 Days of OpenAI” során
December 19-én , az OpenAI bemutatta a macOS-hez készült ChatGPT asztali alkalmazásának frissítését. A Mac-felhasználók interaktívabb és kihangosítóbb megközelítést tapasztalhatnak a ChatGPT használatában, tovább homályosítva a határvonalak az ember-számítógép interakció között.
December 18-án az OpenAI ingyenesen hívható telefonszámot és WhatsApp-hozzáférést indított a ChatGPT számára, így elérhetőbbé tette az AI chatbotot.
December 17-én megérkezett az API-hozzáférés. a teljes verziójú OpenAI o1 modellhez, a valós idejű API továbbfejlesztései a hangos interakciókhoz, valamint egy új preferencia-finomhangolási módszer.
December 16-án az OpenAI minden felhasználó számára elérhetővé tette a ChatGPT élő internetes keresési funkcióját, lehetővé téve, hogy bárki lekérhesse a naprakész információkat közvetlenül az internetről.
December 14-én új testreszabási lehetőségek nyíltak meg a ChatGPT-ben , amely lehetővé teszi a felhasználók számára a feladatok egyszerűsítését és a projektek hatékony kezelését. A Projects lehetővé teszi a felhasználók számára, hogy a csevegéseket, fájlokat és egyéni utasításokat dedikált mappákba csoportosítsák, szervezett munkaterületet hozva létre a feladatok és munkafolyamatok kezeléséhez.
A ChatGPT fejlett hangmódjának hatalmas fejlesztéseként az OpenAI december 12-én hozzáadásra került. látási képességek, amelyek lehetővé teszik a felhasználók számára, hogy élő videót és képernyőket oszthassanak meg valós idejű elemzés és segítségnyújtás érdekében.
December 11-én az OpenAI teljesen kiadta a Canvast, együttműködésen alapuló szerkesztési munkaterület, amely fejlett eszközöket kínál szöveg-és kódfinomításhoz. Az eredetileg bétaverzióban 2024 októberében elindított Canvas a ChatGPT szabványos felületét osztott képernyős kialakítással váltja fel, lehetővé téve a felhasználók számára, hogy szövegen vagy kódon dolgozzanak, miközben párbeszédet folytatnak az AI-val.
A Python végrehajtása a Canvas kiemelkedő funkciója, amely lehetővé teszi a fejlesztők számára, hogy közvetlenül a platformon belül írhassanak, tesztelhessenek és hibakereshessenek szkripteket. Az OpenAI egy élő esemény során mutatta be hasznosságát a Python használatával adatvizualizációk generálására és finomítására. Az OpenAI úgy jellemezte a funkciót, hogy „csökkenti a súrlódást az ötletgenerálás és a megvalósítás között”.
December 9-én az OpenAI hivatalosan is elindította a Sorát, a fejlett mesterséges intelligencia-eszközt, amellyel szöveges felszólításokból lehet videókat generálni, ezzel jelezve a kreatív AI új korszakát. A fizetős ChatGPT-fiókokba integrálva a Sora lehetővé teszi a felhasználók számára állóképek animálását, meglévő videók kiterjesztését, és a jelenetek összefüggő narratíváiba való egyesítését.
December 7-én jelent meg az Inforcement Fine-Tuning, mint egy új keretrendszer, amely lehetővé teszi a mesterséges intelligencia modellek iparág-specifikus alkalmazásokhoz való testreszabását. Ez az OpenAI legújabb megközelítése a mesterséges intelligencia modellek fejlesztésére a fejlesztők által biztosított adatkészletekkel és osztályozási rendszerekkel. Ellentétben a hagyományos felügyelt tanulással, amely a kívánt kimenetek replikálására összpontosít.
December 5-én az OpenAI bemutatta a ChatGPT-t. A Pro, egy új prémium előfizetési szint, amelynek ára havi 200 dollár, és azoknak a szakembereknek és vállalkozásoknak szól, akik fejlett mesterséges intelligencia-képességeket keresnek a nagy igényű munkafolyamatokhoz.