Një ekip studiuesish ka prezantuar një qasje të re për të përmirësuar arsyetimin e inteligjencës artificiale (AI) që nuk mbështetet në zgjerimin e madhësisë së modelit. Më e besueshme përmes vetë-verifikimit. Rezultatet e hershme tregojnë se kjo metodë mund të japë modele si Binjakët V1.5 Pro një avantazh mbi O1-Preview të Openai në testet e arsyetimit të standardeve.

Sidoqoftë, metoda tashmë po nxit debatin. Disa ekspertë argumentojnë se pjesa e sipërme llogaritëse e drejtimit të konkluzioneve të shumta për pyetje mund të kufizojë qëndrueshmërinë e tij në botën reale. Të tjerët pyesin nëse AI mund të”verifikojë veten”në një mënyrë kuptimplote. Rritja e numrit të parametrave, të dhënave të trajnimit dhe llogaritni fuqinë. Kjo qasje, bazuar në ligje për shkallëzimin nervor , ka nxitur përparimin e shpejtë të modeleve të mëdha të gjuhëve. Sidoqoftë, studimet e fundit dhe performanca e dobët relative e modelit të fundit të GPT-4.5 të Openai sugjerojnë që shkallëzimi tani po jep kthime të zvogëluara pavarësisht kostove të fluturimit, duke i shtyrë studiuesit të kërkojnë metoda alternative. Ky proces krijon atë që studiuesit e quajnë një”efekt të shkallëzimit të nënkuptuar”, duke bërë që modelet të shfaqen më të afta pa të dhëna shtesë trajnimi ose arkitektura më të mëdha. Sipas studimit, kjo teknikë përmirëson ndjeshëm rezultatet në standardet e arsyetimit me shumë hapa, siç janë MMLU dhe Bigbench-Hard, duke tejkaluar modelet me një përgjigje të vetme. Modele të mëdha, duke përfshirë Sonet GPT-4O, GPT-4.5 ose Claude 3.7, shpesh gjenerojnë përgjigje bindëse, por të pasakta, një problem i njohur si halucinacion. Rezultatet e tyre sugjerojnë që kjo metodë përmirëson saktësinë në detyrat e arsyetimit në krahasim me modelet konvencionale të konvencionit. Drejtimi i konkluzioneve të shumta për çdo pyetje rrit kërkesat e përpunimit, gjë që mund ta bëjë këtë metodë jopraktike për aplikimet në kohë reale si motorët e kërkimit dhe asistentët e zërit. duke iu përgjigjur kërkesës së shtuar për zgjidhje efikase të konkluzionit. Patate të skuqura të fundit të AI të NVIDIA janë , duke u bashkuar potencialisht me qasjet e shkallëzimit të bazuara në verifikim. Barra? Fuqia e rritur e përpunimit e kërkuar për konkluzione të shumta për pyetje ngre shqetësime për latencën, shkallëzueshmërinë dhe konsumin e energjisë. Por për më shumë mjedise të ndjeshme ndaj latencës, kostoja e shtuar e llogaritjes mund të tejkalojë avantazhet e saj. Nëse shkallëzimi i bazuar në verifikim bëhet një standard i industrisë ose mbetet një eksperiment i ngrohtë do të varet nga mënyra se si kompanitë ekuilibrojnë saktësinë, shpejtësinë e përpunimit dhe kërkesat e energjisë në vitet e ardhshme.