Fillimi i AI Qodo ka hyrë në”Luftën e Benchmark”të ashpër për kodimin e epërsisë. Më 11 gusht, kompania njoftoi agjentin e saj të ri, komandën QODO, shënoi një 71.2% mbresëlënëse në testin e verifikuar të SWE-Bench. Ky rezultat e fut Qodo drejtpërdrejt në një arenë konkurruese të mbizotëruar nga gjigantët si Antropik dhe Openai. Komanda QODO është ndërtuar në Langgraph dhe lejon të përdorë modele nga Openai, Antropic dhe të tjerët për detyrat e kodimit. Antropik dhe Openai kohët e fundit hodhën njëra-tjetrën për në vendin e parë, duke pretenduar rezultate përkatësisht 74.5% dhe 74.9%. Gara e pamëshirshme për mbizotërimin e standardeve po përshkallëzohet me shpejtësi. Modelet me rezultate të larta si GPT-5 i ri i Openai janë përballur me lëshime publike të trazuara, duke ngritur pyetje kritike nëse suksesi i standardit përkthen me të vërtetë në performancën e besueshme, të gatshme për prodhim. Gauntlet SWE-Bench: Një kampion i ri botëror i kodimit çdo javë tjetër
Beteja për vendi i lartë në krye të SWE-Bench Boxboard ka përshkuar në një çështje të fortë, të lartë, me një çështje të lartë, me titullin”Modelin më të mirë”të Kodimit”duke ndryshuar duart e shumëfishta. Kjo seri e shpejtë e njoftimeve nga laboratorët më të mirë të industrisë nxjerr në pah një ritmi frenetik dhe armë i zhvillimit Fokusi intensiv është në SWE-Bench për një arsye. Për dallim nga testet sintetike, është një vlerësim i kërkuar që pasqyron inxhinierinë e softuerit në botë reale. Secila detyrë rrjedh nga një çështje aktuale e GitHub që gjendet në një nga 12 depot e Pitonit të Hapur me burim të hapur. Për të pasur sukses, agjentët e AI duhet të arsyetojnë, planifikojnë dhe modifikojnë saktë kodin, shpesh nëpër skedarë të shumtë, duke përsëritur ashtu si një zhvillues njerëzor do të kishte pa asnjë shkurtore. Kjo rezultat përfaqësonte një kërcim domethënës mbi 72.5% paraardhësi i tij, Claude 4 Opus, kishte postuar vetëm disa muaj më parë në maj, duke demonstruar përparim të jashtëzakonshëm. Sidoqoftë, mbretërimi i Antropikut ishte jetëshkurtër. Vetëm disa ditë më vonë, më 7 gusht, Openai kundërshtoi fillimin e serisë së tij të shumëpritur të modelit GPT-5. Kompania pretendoi se flamuri i saj i ri e kishte tejkaluar ngushtë rivalin e saj me një normë suksesi 74.9%, menjëherë duke shkatërruar Claude 4.1 dhe duke kapur vendin e parë për vete. Ndërsa nuk është rezultati më i lartë, është një arritje e frikshme për një fillim më të vogël, duke e vendosur agjentin e tij të komandës QODO në mënyrë të vendosur në të njëjtën ligë si titanët e industrisë. Rezultati vërteton se qasjet inovative arkitekturore mund të konkurrojnë me shkallën e plotë të laboratorëve më të mëdhenj. Uebfaqja zyrtare e SWE-Bench është bërë një tregues i mbetjeve, i paaftë për të mbajtur ritmin me njoftimet për shtyp të kompanisë. Drejtuesi i shfaqur publikisht tregon akoma rezultate më të vjetra, të shfuqizuara, duke e bërë atë një burim jo të besueshëm për gjendjen aktuale të artit. Për shembull, shumë ekspertë sugjerojnë që një model i ndryshëm, Claude Sonnet më pak i fuqishëm i Antropikut, në të vërtetë drejton paketën kur vlerësohet në kushte të caktuara. Kjo mospërputhje shtron pyetje kritike në lidhje me metodologjitë e testimit dhe nëse maja e tabelës së drejtuesit është aq e qartë sa sugjerimet sugjerojnë. href=”https://www.qodo.ai/blog/qodo-command-swe-bench-refied/”target=”_ bosh”> e krijuar nga toka lart për inxhinierinë e softuerit në botë reale
. Në vend që të mbështetet në një model të vetëm monolit, agjenti i komandës QODO është ndërtuar në Langgraph, një kornizë e fuqishme që mundëson krijimin e rrjedhës së punës modulare, shtetërore dhe ciklike. Ky fondacion siguron si shpejtësinë ashtu edhe fleksibilitetin e nevojshëm për të trajtuar problemet komplekse, me shumë hapa.
Përdorimi i Langgraph është një diferencues kryesor. Ai lejon QODO të orkestrojë operacione komplekse si një grafik, ku secili hap është një nyje e konfigurueshme. Ky modularitet nuk është vetëm një avantazh teorik; Ai i lejoi ekipit të ripërdorë dhe të zgjerojë komponentët e provuar nga shtrirja e tij ekzistuese IDE, QODO Gen. Kjo përfshin module të testuara nga beteja për analizën e kodit, përmbledhjen dhe skanimin e sigurisë, të cilat mund të rivlerësohen pa mundim brenda agjentit të ri. Sistemi i QODO pranon se të kesh sukses në baza të kodeve komplekse, me shumë skedarë kërkon më shumë sesa të ushqesh skedarë të papërpunuar në një model gjuhësor. Ai e zgjidh këtë duke distiluar kodin e parë të shtresuar në përmbledhje të sakta, me sinjal të lartë, duke siguruar që LLM të marrë vetëm kontekstin më të rëndësishëm dhe më të strukturuar në çdo hap të procesit të tij të arsyetimit. Para se të shkruani ndonjë kod, agjenti analizon thellësisht qëllimin e përdoruesit dhe e dekompozon atë në një seri të qartë, të veprueshme të subtaskave. Kjo krijon një udhërrëfyes të besueshëm për të ndjekur LLM. Në mënyrë thelbësore, përfundimi i detyrës gjykohet jo vetëm nga rezultati përfundimtar, por nga respektimi i rreptë i këtij plani origjinal. Anydo boshllëk i zbuluar shkakton një reagim dhe lak të rigjykimit derisa të arrihet shtrirja e plotë. Kur një telefonatë mjetesh dështon, agjenti nuk ndalet thjesht; përshtatet. Sistemi automatikisht nxjerr reagime të gabimit, thërret LLM për të diagnostikuar dështimin, dhe më pas rregullon me inteligjencë parametrat ose strukturën e mjetit. Agjenti është i autorizuar të rigjykojë një thirrje deri në tre herë, dhe nëse një rezolutë ende nuk është e mundur, ai mund të drejtohet në strategji alternative për të siguruar që përparimi të vazhdojë. Toolsset e tij përfshin:
sistemin e skedarëve: mjete standarde për leximin, shkrimin dhe redaktimin e skedarëve. Duke pranuar që edhe modelet më të mira të artit mund të dështojnë në ndeshjet e sakta të rrugës së skedarëve, QODO zbatoi një mekanizëm të kthimit që përdor përputhjen fuzzy për të përmirësuar shkallën e suksesit të mjetit. Vegël Shell: Kjo i jep agjentit aftësinë për të bashkëvepruar drejtpërdrejt me guaskën e sistemit. Mund të zhvillojë skriptet e ndërtimit, të ekzekutojë suitat e provës dhe të vërtetojë hipotezat e veta në kohë reale, duke imituar rrjedhën interaktive të një zhvilluesi të punës. RIPGREP: Për mirëkuptimin e bazës së thellë të kodeve, agjenti është krijuar në vend për përdorimin e optimizuar të mjetit të kërkimit rekursiv RIPGREP, duke e lejuar atë të lokalizojë shpejt copat e kodit përkatës nëpër depo të mëdha. Mendimi sekuencial: Ndërsa nuk është aktivizuar si parazgjedhje, ky mjet i strukturuar i arsyetimit ndihmoi të kontribuonte në rezultatet e standardit duke prishur detyrat komplekse në hapa më të menaxhueshëm, të veprueshëm.
Për drejtimin e standardit, QODO vëren se mjeti i tij i kërkimit në internet ishte çaktivizuar për të parandaluar çdo rrjedhje të mundshme të të dhënave në zgjidhje, duke siguruar integritetin e rezultatit të tij. Më në fund, kompania nxjerr në pah partneritetin e saj të fortë me Antropic, duke konfirmuar se është një “Mundësuar nga Claude”zgjidhje . Specifikon që Claude 4 doli si modeli i saj i zgjedhjes për të arritur rezultatet e tij mbresëlënëse të SWE-Bench. Megjithë rezultatin e tij të përcaktimit të rekordeve dhe pretendimet ambicioze nga CEO Sam Altman se”ky është modeli më i mirë në botë në kodim… modeli më i mirë në botë për të shkruar, modeli më i mirë në botë në kujdesin shëndetësor, dhe një listë e gjatë e gjërave përtej kësaj”, fillimi i modelit ishte një disastor gati. Modeli prodhoi hartat me shtete fiktive, dështoi matematikën themelore dhe shpiku presidentët amerikanë, duke çuar në tallje të gjerë dhe duke dëmtuar besueshmërinë e kompanisë. Ai pranoi se”një”autoswitcher”i gabuar midis mënyrave të brendshme të modelit e kishte bërë atë për një kohë më të gjatë-dukej mënyra më e madhe se sa synohej”, një e metë teknike që e bëri modelin të duket shumë më pak i aftë sesa ishte menduar. Në një përmbysje të konsiderueshme, Openai premtoi se