OpenAI ka zbuluar modelet e tij më të fundit të inteligjencës artificiale, o3 dhe o3-Mini, të cilat janë krijuar për të shkëlqyer në detyrat që kërkojnë arsyetim kompleks logjik.
Shpallur gjatë përfundimit të ngjarjes”12 Ditët e OpenAI”të OpenAI-t. , modelet bazohen në suksesin e familjes së modeleve të mëparshme o1 dhe përfshijnë përmirësime si koha e rregullueshme e arsyetimit, Sam Altman, e përshkroi o3 si një hap përpara duke zhvilluar AI të aftë për të trajtuar”detyra gjithnjë e më komplekse që kërkojnë arsyetim të menduar.”
OpenAI tha se nuk i emërtoi modelet e reja”o2″”për respekt”për markën e telekomit në Mbretërinë e Bashkuar. Modelet e reja janë të disponueshme për shikim paraprak nga studiuesit e sigurisë, me akses më të gjerë publik të planifikuar për fillimin e ardhshëm vit.
Dita 12: Vlerësimet e hershme për OpenAI o3 (po, kemi kapërcyer një numër)https://t.co/iWXg9IGuZM— OpenAI (@OpenAI) 20 dhjetor 2024
Aftësi dhe aplikacione të zgjeruara të arsyetimit
Familja o3 prezanton disa veçori që synojnë duke përmirësuar kapacitetin e AI për zgjidhjen logjike të problemeve. Më e rëndësishmja, modelet i lejojnë përdoruesit të rregullojnë kohën e caktuar për arsyetimin, duke arritur një ekuilibër midis shpejtësisë dhe saktësisë.
Sipas OpenAI, kjo aftësi i mundëson o3 të performojë më mirë në një gamë të gjerë detyrash, duke përfshirë matematikën e avancuar, programimin dhe analizën shkencore.
Ndryshe nga modelet e tjera të përqendruara në arsyetim, o3. si o1 përdor një metodologji”zinxhiri privat të mendimit”. Kjo i zbërthen problemet në hapa më të vegjël dhe logjikë përpara se të japë një zgjidhje. OpenAI pretendon se kjo qasje ndihmon në minimizimin gabime dhe siguron që modeli të japë rezultate më të besueshme për pyetje komplekse.
Altman tregoi se modelet e reja janë krijuar për të adresuar detyrat që tradicionalisht vareshin nga aftësitë njerëzore për zgjidhjen e problemeve.
Performanca në standardet kryesore
O3 i vlerësimeve të brendshme të OpenAI-t si një përmirësim i madh në krahasim me paraardhësin e tij Në ARC-AGI, një pikë referimi e krijuar për të testuar përgjithësimin e AI, o3 arriti një rezultat prej 87.5%, krahasuar me rezultatin kryesor të o1 prej 32%.
Ekipi i ARC Prize pranoi përmirësimet e modelit o3, duke deklaruar “Kjo është një rritje befasuese dhe e rëndësishme me hapa në aftësitë e inteligjencës artificiale, duke treguar aftësinë e re të përshtatjes së detyrave që nuk është parë më parë në modelet e familjes GPT. Për kontekstin, ARC-AGI-1 iu deshën 4 vjet për të shkuar nga 0% me GPT-3 në 2020 në 5% në 2024 me GPT-4o. E gjithë intuita në lidhje me aftësitë e AI do të duhet të përditësohet për o3.”
Ata gjithashtu ndanë rezultatet e mëposhtme të testimit të o3″në dy nivele të llogaritjes me madhësi të ndryshueshme të mostrës: 6 (me efikasitet të lartë) dhe 1024 ( me efikasitet të ulët, llogaritje 172x).”
%ow> o3 duket se i shtyn kostot llogaritëse për ekzekutimin e modeleve kufitare në nivele të paprecedentë. Ekipi i ARC AGI zbuloi se “OpenAI ka kërkuar që ne të mos publikojmë kostot e larta të llogaritjes. Sasia e llogaritjes ishte afërsisht 172 herë më shumë se konfigurimi i llogaritjes së ulët.” Por siç thonë ata gjithashtu, metrikat e forta të performancës së modelit o3″nuk janë vetëm rezultat i aplikimit të llogaritjes së forcës brutale në pikë referimi Modeli i ri o3 i OpenAI përfaqëson një hap të rëndësishëm përpara në aftësinë e AI për t’u përshtatur me detyrat e reja një përparim i vërtetë, që shënon një ndryshim cilësor në aftësitë e AI në krahasim me kufizimet e mëparshme të LLM-ve o3 është një sistem i aftë për t’u përshtatur me detyrat që nuk i ka hasur kurrë më parë, duke i afruar me siguri performancës së nivelit njerëzor në domenin ARC-AGI. p> Reperat e tjerë theksojnë më tej pikat e forta të o3: EpochAI Frontier Math: o3 zgjidhi 25.2% të problemeve, duke tejkaluar të gjitha sistemet e tjera të AI, të cilat arrijnë në 2%. FrontierMath vlerëson aftësitë e sistemeve të AI në arsyetimin e avancuar matematikor. Standardi konsiston në qindra probleme origjinale, jashtëzakonisht sfiduese të matematikës që përfshijnë degët kryesore të matematikës moderne, duke përfshirë teorinë e numrave llogaritës, analizën reale, gjeometrinë algjebrike dhe teorinë e kategorive. François Chollet, një bashkëkrijues i ARC-AGI, e përshkroi këtë përparim si të fortë, por reflektues vetëm në një aspekt e inteligjencës së përgjithshme. Sot OpenAI njoftoi o3, modelin e tij të arsyetimit të gjeneratës së ardhshme. Ne kemi punuar me OpenAI për ta testuar atë në ARC-AGI dhe besojmë se përfaqëson një përparim të rëndësishëm në përshtatjen e AI me detyrat e reja. Ai shënon 75,7% në vlerësimin gjysmë privat në nivel të ulët.-Modaliteti i llogaritjes (për 20 dollarë për detyrë… pic.twitter.com/ESQ9CNVCEA — François Chollet (@fchollet) 20 dhjetor, 2024 Chollet ndau gjithashtu disa shembuj të detyrave që o3 nuk mund t’i zgjidhte në cilësimet e llogaritjes së lartë, të cilat janë të disponueshme në GitHub për analiza të mëtejshme. Do të jetë gjithashtu jashtëzakonisht e rëndësishme. për të analizuar pikat e forta dhe kufizimet e sistemit të ri Këtu janë disa shembuj të detyrave që o3 nuk mund t’i zgjidhte në cilësimet me llogaritje të larta (edhe pse po gjeneronte miliona argumente kërkimi CoT dhe konsumonte mijëra dollarë llogaritje… pic.twitter.com/IULyjAlxwV — François Chollet (@fchollet) 20 dhjetor 2024 Megjithë arritjet e tij, o3 ngre shqetësime në lidhje me vendosjen etike dhe sigurinë. Modelet e arsyetimit si o1 u zbuluan se shfaqin një tendencë më të lartë drejt sjelljeve mashtruese në krahasim me AI tradicionale. OpenAI pranon se këto rreziqe mund të vazhdojnë me o3 dhe po bashkëpunon në mënyrë aktive me organizata të jashtme për të kryer testime të sigurisë. Altman sugjeroi në një intervistë të fundit që lëshimi i sistemeve të avancuara të AI duhet të udhëhiqet nga korniza të forta federale për të siguruar që të sigurohet se siguria dhe përgjegjësia. I ngjashëm: Indeksi i sigurisë AI 2024 Rezultatet: OpenAI, Google, Meta, xAI Fall Short; Anthropic në krye Njoftimi i OpenAI vjen në një kohë të konkurrencës së shtuar midis zhvilluesve të AI. Vetëm dje, Google prezantoi modelin e tij Gemini 2.0 Flash Thinking, i përshkruar nga CEO Sundar Pichai si “sistemi ynë më i menduar deri më tani.” Ndërkohë, Alibaba dhe DeepSeek kanë lëshuar gjithashtu modele të përqendruara në arsyetim, duke shënuar një ndryshim drejt kësaj fushe të specializuar të zhvillimit të AI. Popullariteti i arsyetimit të inteligjencës artificiale pasqyron një konsensus në rritje se vetëm shkallëzimi i modeleve nuk është më i mjaftueshëm për të arritur Përfitime të konsiderueshme të performancës Megjithatë, këto sisteme kërkojnë burime të konsiderueshme llogaritëse, duke ngritur pyetje në lidhje me shkallëzimin e tyre afatgjatë. I ngjashëm: Standardi i ri i FACTS i Google mat vërtetësinë e modeleve të AI
Përparimet e OpenAI me o3 kanë rindezur debatet rreth inteligjencës së përgjithshme artificiale (AGI). Arritja e AGI do të kishte implikime financiare për partneritetin e OpenAI-t me Microsoft-in, duke ndryshuar potencialisht marrëveshjen e tyre për aksesin në teknologjitë e kompanisë. Ndërsa Altman ndaloi së deklaruari o3 si AGI, performanca e tij e fortë në standardet sugjeron që OpenAI po rritet. më afër këtij qëllimi ambicioz. Megjithatë, vlefshmëria e jashtme dhe testimi i mëtejshëm do të jenë kritike për të konfirmuar aftësitë e modelit. I ngjashëm: OpenAI rishikon klauzolën AGI për të siguruar partneritetin e Microsoft Më 19 dhjetor, OpenAI zbuloi një përditësim të saj Aplikacioni i desktopit ChatGPT për macOS përdoruesit tani mund të përjetojnë një qasje më interaktive dhe pa duar për përdorimin e ChatGPT, duke mjegulluar më tej linjat midis ndërveprimit njeri-kompjuter. Më 18 dhjetor, OpenAI lançoi një pa pagesë. numrin dhe aksesin në WhatsApp për ChatGPT, duke e bërë më të aksesueshëm chatbotin e AI. 17 dhjetori solli qasjen API për versionin e plotë. Modeli o1 i OpenAI, përmirësime në API në kohë reale për ndërveprimet zanore dhe një metodë e re e rregullimit të preferencave. Më 16 dhjetor, OpenAI e vuri në dispozicion funksionin e tij ChatGPT të kërkimit të drejtpërdrejtë në ueb për të gjithë përdoruesit, duke lejuar këdo që të rimarrë. informacione të përditësuara direkt nga uebi. 14 dhjetori solli opsione të reja personalizimi në ChatGPT, duke i lejuar përdoruesit të thjeshtojnë detyrat dhe të menaxhojnë projektet në mënyrë efektive. Projektet i lejojnë përdoruesit të grupojnë biseda, skedarë dhe udhëzime të personalizuara në dosje të dedikuara, duke krijuar një hapësirë pune të organizuar për menaxhimin e detyrave dhe rrjedhave të punës. Si një përmirësim i madh në modalitetin e tij të avancuar të zërit për ChatGPT, u shtua OpenAI më 12 dhjetor. aftësitë e vizionit, duke u mundësuar përdoruesve të ndajnë video dhe ekrane të drejtpërdrejta për analiza dhe ndihmë në kohë reale. Në dhjetor. 11, OpenAI publikoi plotësisht Canvas, një hapësirë pune e redaktimit bashkëpunues që ofron mjete të avancuara si për përsosjen e tekstit ashtu edhe për kodin. Fillimisht i lançuar në beta në tetor 2024, Canvas zëvendëson ndërfaqen standarde të ChatGPT me një dizajn të ekranit të ndarë, duke i lejuar përdoruesit të punojnë në tekst ose kod ndërsa angazhohen në shkëmbime bisedash me AI. Shtimi i ekzekutimit të Python është. një veçori e spikatur e Canvas, që u mundëson zhvilluesve të shkruajnë, testojnë dhe korrigjojnë skriptet direkt brenda platformës. OpenAI demonstroi dobinë e tij gjatë një ngjarjeje të drejtpërdrejtë duke përdorur Python për të gjeneruar dhe rafinuar vizualizimet e të dhënave. OpenAI e përshkroi veçorinë si”reduktimin e fërkimit midis gjenerimit të ideve dhe zbatimit”. Më 9 dhjetor, OpenAI lançoi zyrtarisht Sora, mjetin e tij të avancuar të AI për gjenerimin e videove nga kërkesat e tekstit, duke sinjalizuar një epokë të re për AI krijues. E integruar në llogaritë me pagesë të ChatGPT, Sora i lejon përdoruesit të animojnë imazhe të palëvizshme, të zgjerojnë videot ekzistuese dhe të bashkojnë skenat në tregime kohezive. U publikua më 7 dhjetor,”Përforcimi Fine-Tuning”si një kornizë e re e krijuar për të mundësuar personalizimin e modeleve të AI për aplikacione specifike për industrinë Është qasja më e fundit e OpenAI për përmirësimin e modeleve të AI duke i trajnuar ato me grupe të dhënash dhe sisteme klasifikimi të ofruara nga zhvilluesit. Ndryshe nga mësimi tradicional i mbikëqyrur, i cili fokusohet në përsëritjen e rezultateve të dëshiruara Në dhjetor. 5, OpenAI zbuloi ChatGPT Pro, një nivel i ri abonimi premium me çmim 200 dollarë në muaj, që synon profesionistët dhe ndërmarrjet që kërkojnë aftësi të avancuara të AI për flukse pune me kërkesa të larta.
AIME 2024: o3 me pikë 96.7%, me vetëm një pyetje të humbur. Standardi AIME (Artificial Intelligence Math Evaluation) 2024 është krijuar për të vlerësuar aftësitë matematikore të zgjidhjes së problemeve të modeleve të AI bazuar në 2024provim AIME. Ky vlerësim fokusohet në sfida komplekse matematikore, të ngjashme me ato të hasura në Provimin e Matematikës Ftesore Amerikane, i cili njihet për testimin e aftësive të nxënësve të matematikës shumë të talentuar të shkollave të mesme në Shtetet e Bashkuara.
GPQA Diamond: Arriti një shkallë saktësie prej 87,7%, duke shkëlqyer në përgjigjen e pyetjeve logjike të nivelit të lartë. GPQA Diamond vlerëson aftësitë e sistemeve të AI në arsyetimin e avancuar shkencor në biologji, fizikë dhe kimi në një nivel të diplomuar. Ky pikë referimi përbëhet nga 198 pyetje jashtëzakonisht sfiduese me zgjedhje të shumëfishta, të dizajnuara për të qenë të vështira edhe për joekspertët shumë të aftë.
Shqetësime për sigurinë dhe Kufizimet
Rritja e arsyetimit të AI dhe rivaliteteve të industrisë
Një kontekst më i gjerë: o3 dhe Inteligjenca e Përgjithshme Artificiale
Njoftimet e mëparshme Gjatë”12 Ditëve të OpenAI”