Një studiues i Samsung AI në Montreal ka krijuar një model të vogël AI që grushton shumë më lart se pesha e tij, duke sfiduar përqendrimin e industrisë në shkallë masive. Lëshuar këtë javë, modeli gjigant i vogël me 7 milion parametër (TRM) tejkalon modele gjigande si gemini e Google 2.5 Pro në enigma të vështira arsyetimi. Një punim i botuar në arxiv , synon të dëshmojë se dizajni i zgjuar mund të jetë më i rëndësishëm sesa madhësia e plotë. Ai përdor një proces të thjeshtë”rekursiv”për të menduar në sythe dhe për të përmirësuar përgjigjet e veta, duke ofruar një rrugë më efikase për inovacion. Siç deklaroi Jolicoeur-Martineau,”Ideja se duhet të mbështetet në modele themelore masive të trajnuara për miliona dollarë nga disa korporata të mëdha për të zgjidhur detyrat e vështira është një kurth”. Lëshimi sinjalizon një lëvizje në rritje drejt modeleve më të vogla, të specializuara. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mty1mtoxmtg2-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3od AiiHdpZhropsixmjgwiibozwlnahq9ijc4mcig1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>
nga hierarkia komplekse deri tek thjeshtësia rekursive
trm evoluon nga modeli hierarkik i arsyetimit (HRM) , por në mënyrë të rrënuar në mënyrë të rrënuar në mënyrë të rrënuar. Paraqitur në fillim të këtij viti, HRM përdori dy rrjete të veçanta që vepronin në frekuenca të ndryshme, një koncept krijuesit e tij të justifikuar me argumente komplekse biologjike në lidhje me trurin e njeriut. Puna e Jolicoeur-Martineau i heq këto shtresa abstraksioni larg.
TRM përdor vetëm një rrjet të vetëm me dy shtresa. Ai shpërndahet me analogjitë biologjike dhe varësitë e pikave fikse, duke e bërë arkitekturën më transparente. Qëllimi ishte të izoloni mekanizmin thelbësor: përmirësimin rekursiv.
Inovacioni thelbësor është procesi i tij i arsyetimit. Modeli fillon me një përgjigje të përafërt dhe e rafinon përsëritëse atë. Në secilën lak, ajo së pari azhurnon”procesin e mendimit”të tij të brendshëm përpara se të azhurnoni përgjigjen e tij përfundimtare, duke simuluar në mënyrë efektive një rrjet shumë më të thellë pa koston e lartë. Kjo i lejon asaj të mësojë zinxhirë arsyetimi komplekse, me shumë hapa që normalisht do të kërkojnë një model shumë më të madh. Kjo metodë rrit performancën dhe shmang çështjet që modelet më të mëdha përballen në të dhënat e vogla. Arritja e tij e qëndrueshme vjen në korpusin abstrakt dhe të arsyetimit (ARC-AGI), një suitë sfiduese e enigmave vizuale që janë të thjeshta për njerëzit, por shumë të vështira për AI. Kjo rezultat tejkalon shumë nga peshat e rënda të industrisë, duke përfshirë Google’s Gemini 2.5 Pro (37.0%), O3-Mini-High-High (34.5%), dhe Deepseek R1 (15.8%), pavarësisht TRM që ka më pak se 0.01%të parametrave të tyre. Këtu, TRM shënoi 7.8%, duke mposhtur përsëri Gemini 2.5 Pro 4.9%dhe 3.0%të O3-Mini-High. Ndërsa këto rezultate absolute mund të duken të ulëta, ato përfaqësojnë një kërcim të rëndësishëm përpara në një pikë referimi ku përparimi ka qenë shumë i ngadaltë. Outlier, duke theksuar efikasitetin e arkitekturës së tij. Në Sudoku-Extreme, një të dhënë e enigmave të vështira me vetëm 1.000 shembuj trajnimi, TRM vendosi një rekord të ri më të lartë të artit duke arritur saktësi 87.4%. Kjo paraqet një përmirësim masiv mbi 55% të shënuar nga paraardhësi i tij, HRM. Këto rezultate në fusha logjike të shumta, të dallueshme logjike demonstrojnë fuqinë e qasjes së tij rekursive për zgjidhjen e problemeve të strukturuara. E mrekullueshme është efikasiteti i modelit. I gjithë modeli u trajnua në vetëm dy ditë në katër GPU të NVIDIA H-100 për nën 500 dollarë, siç konfirmohet nga studiuesi. Kjo qëndron në kontrast me drejtimet shumë milionëshe të trajnimit të kërkuara për LLM-të e Frontier-it të sotëm. href=”https://twitter.com/jm_alexia/status/1975586932391313464?ref_src=twsrc%5etfw”target=”_ bosh”> 7 tetor 2025 pic.twitter.com/yhmpn4hlxi
-Sebastian Raschka (@RasBt)
Letra TRM ndjehet si një përparim i rëndësishëm i AI. ditë. href=”https://twitter.com/deedydas/status/19761053660030444488?ref_src=twsrc%5etfw”target=”_ bosh”. Prova e fuqishme e konceptit për ndërmarrjet. hulumtim.