ai startup Qodo belépett a heves „referencia háborúba” a felsőbbrendűség kódolására. Augusztus 11-én a társaság bejelentette új ügynökét, a Qodo Parancsnokságot, lenyűgöző 71,2%-ot szerzett a Swe-Sench által ellenőrzött teszten. Ez az eredmény a QODO-t közvetlenül egy olyan versenyképes arénába vonja be, amelyet az olyan óriások uralnak, mint az Antropic és az Openai. A Qodo parancs a Langgraph-ra épül, és lehetővé teszi az Openai, Antropic és mások modelleinek használatát a kódolási feladatok kódolására. Az Antropic és az Openai nemrégiben ugrott egymással az első helyre, 74,5%, illetve 74,9% pontszámot követően. A benchmark dominanciájának könyörtelen versenye gyorsan növekszik. Az olyan magas pontszámú modellek, mint az Openai új GPT-5, zaklatott nyilvános indításokkal szembesültek, kritikus kérdéseket vetve fel arról, hogy a benchmark siker valóban megbízható, produkciós teljesítményű teljesítményt jelent. Swe-Sench Gauntlet: Az új kódoló világbajnok minden második héten

A csata a a legfelső pontok legfelső pontjainak legfelső pontja”Többszörös diverzió”A”Legjobb kódolás”Többszörös diverziójává vált. Az iparág legfontosabb laboratóriumainak ez a gyors tűzoltó-sorozata kiemeli a Frenetikus és fegyveres pace-t.

Az intenzív fókusz a Swe-Pad-ra irányul. A szintetikus tesztekkel ellentétben ez egy igényes értékelés, amely tükrözi a valós szoftverfejlesztést. Mindegyik feladat egy tényleges GitHub-kérdésből származik, amely a 12 széles körben használt nyílt forráskódú Python adattárak egyikében található. A siker elérése érdekében az AI ügynököknek meg kell érezniük, meg kell tervezniük és helyesen szerkesztik a kódot, gyakran több fájlon keresztül, iterálva, mint egy emberi fejlesztő hivatkozások nélkül. Ez a pontszám jelentős ugrást jelentett az elődje, a Claude 4 Opus 72,5%-ának, csak néhány hónappal korábban, májusban, figyelemre méltó haladást mutatva. Néhány nappal később, augusztus 7-én, az Openai ellensúlyozta a várt GPT-5 modell sorozatának elindítását. A társaság azt állította, hogy új zászlóshajója szigorúan meghaladta riválisát 74,9%-os sikerességi rátával, azonnal megsemmisítette a Claude 4.1-et, és megragadta a legfontosabb helyet. Noha nem a legmagasabb pontszám, ez egy félelmetes eredmény egy kisebb induláshoz, és a QoDo parancsnoki ügynökét határozottan ugyanabba a bajnokságba helyezi, mint az iparág titánjai. Az eredmény bizonyítja, hogy az innovatív építészeti megközelítések versenyezhetnek a nagyobb laboratóriumok puszta skálájával. A hivatalos Swe-Sench weboldal elmaradt mutatóvá vált, és nem tudott lépést tartani a vállalati sajtóközleményekkel. A nyilvánosan megjelenített ranglistán még mindig régebbi, felváltott pontszámokat mutat, és ez megbízhatatlan forrássá válik a jelenlegi legmodernebb. Például sok szakértő azt sugallja, hogy egy másik modell, az Antropic kevésbé erős Claude Sonnet 4, valójában vezet a csomagot, ha bizonyos körülmények között értékelik. Ez az eltérés kritikus kérdéseket vet fel a tesztelési módszertanról és arról, hogy a ranglistán teteje ugyanolyan egyértelmű-e, mint a bejelentések sugallják. href=”https://www.qodo.ai/blog/qodo-command-swen-bench-verified/”cél=”_ blank”> Az alapoktól a valós szoftverfejlesztéshez tervezték. Ahelyett, hogy egyetlen monolit modellre támaszkodna, a QoDO parancs ügynök a Langgraph-ra épül, egy olyan erőteljes keretre, amely lehetővé teszi a moduláris, állapotos és ciklikus munkafolyamatok létrehozását. Ez az alapítvány biztosítja a komplex, többlépcsős problémák kezeléséhez szükséges sebességet és rugalmasságot. Ez lehetővé teszi a QoDo számára, hogy grafikonként összehangolja a komplex műveleteket, ahol minden lépés konfigurálható csomópont. Ez a modularitás nem csak elméleti előnye; Ez lehetővé tette a csapat számára, hogy újrafelhasználja és kiterjessze a bevált alkotóelemeket a meglévő IDE-kiterjesztéséből, a Qodo Gen.-től. A QoDo rendszere felismeri, hogy a komplex, többfájdalmú kódbázisok sikere nem csupán a nyers fájlok nyelvi modellbe történő etetését igényli. Ezt úgy oldja meg, hogy a rétegelt kódot először pontos, nagy jelekbe foglalja, biztosítva, hogy az LLM csak a legmegfelelőbb és strukturált kontextusokat kapja az érvelési folyamat minden lépésében. Bármely kód megírása előtt az ügynök mélyen elemzi a felhasználó célját, és egyértelmű, cselekvési sorrendbe bontja azt. Ez megbízható ütemtervet hoz létre az LLM követésére. Lényeges, hogy a feladat befejezését nemcsak a végső kimenet, hanem az eredeti terv szigorú betartása alapján ítélik meg. Bármely észlelt rés visszajelzést és újbóli hurkot vált ki, amíg a teljes igazítás meg nem valósul. Ha egy szerszámhívás meghibásodik, az ügynök nem egyszerűen nem áll meg; alkalmazkodik. A rendszer automatikusan kivonja a hiba-visszacsatolást, felhívja az LLM-et a hiba diagnosztizálására, majd intelligensen beállítja az eszköz paramétereit vagy szerkezetét. Az ügynök felhatalmazást ad arra, hogy háromszor újjáéleszti a hívást, és ha még mindig nem lehetséges a felbontás, akkor alternatív stratégiákhoz fordulhat annak biztosítása érdekében, hogy az előrehaladás folytatódjon. Szerszámkészlete magában foglalja:

fájlrendszer: standard eszközök a fájlok olvasásához, írásához és szerkesztéséhez. Felismerve, hogy még a legmodernebb modellek is meghibásodhatnak a pontos fájlútvonalakon, a QoDo olyan tartalék mechanizmust hajtott végre, amely a fuzzy illesztést használja az eszköz sikerességi arányának javításához. Shell Tool: Ez lehetővé teszi az ügynök számára, hogy közvetlenül kölcsönhatásba lépjen a rendszerhéjjal. Futtathatja a Build szkripteket, végrehajthatja a tesztkészleteket, és valós időben érvényesítheti saját hipotéziseit, utánozva a fejlesztő interaktív munkafolyamatát. ripgrep: A mély kódbázis-megértéshez az ügynököt natív módon tervezték a RIPGREP rekurzív keresési eszköz optimalizált használatára, lehetővé téve, hogy gyorsan megtalálja a releváns kódrészleteket a nagy adagok között. Szekvenciális gondolkodás: bár alapértelmezés szerint nem engedélyezve, ez a strukturált érvelési eszköz hozzájárult a referencia-eredményekhez azáltal, hogy összetett feladatokat bontható, kezelhető, cselekvési lépésekre bontja. A Benchmark futtatásához

A QODO megjegyzi, hogy a webes keresési eszközt letiltották, hogy megakadályozzák a megoldásokban szereplő esetleges adatszivárgást, biztosítva a pontszám integritását. Végül, a vállalat kiemeli az antropikus és megerősítve, hogy egy “Powered By Claude” megoldás . Megadja, hogy a Claude 4 úgy döntött, hogy választott modellje, hogy elérje lenyűgöző Swe-pad-eredményeit. Annak ellenére, hogy Sam Altman vezérigazgatója és ambiciózus állításai szerint „ez a legjobb modell a világon a Coding-ban.… A világ legjobb modellje az írásban, a világ legjobb modellje az Health Care-nál, és a dolgok hosszú listája, amelyen túl”, a modell elindítása egy közeli katasztrófa. A modell térképeket készített kitalált állapotokkal, kudarcot vallott alapmatematikummal, és feltalálta az amerikai elnököket, ami széles körben elterjedt nevetségessé vált és károsítva a vállalat hitelességét. Elismerte, hogy a modell belső üzemmódjai közötti „hibás„ autoswitcher “hosszabb ideig„ látszólag dumbernek “tette a szándékot”, egy olyan műszaki hiba, amely a modellt sokkal kevésbé képesnek tűnt, mint a tervezett. Jelentős visszafordításban az Openai megígérte a “_ blank”> plaring discnct-hez való hozzáférést, GPT-4O . a referenciaértékek végső értékéről, mivel az AI kódoló háborúkban szereplő tét magasabb. A versenytársak gyorsan kihasználják az esetleges hibákat. Az Openai botlására adott egyértelmű válaszban az Elon Musk Xai korlátozott ideig ingyenesvé tette a GROK 4 modelljét. Maga Grok azonban kritikával szembesült azzal, hogy túlteljesítette a referenciaértékeket. Az AI-kódoló partner kiválasztása szerencsejátékossá válik, amikor a kihirdetett „legjobb” modell napokban meg lehet detronizálni, vagy a gyakorlatban kudarcot vallhat. A hangsúlyt a tiszta teljesítménymutatókról a megbízhatóságra, a következetességre és a valós hasznosságra változtatja. A legutóbbi zavar azt sugallja, hogy a válasz messze nem egyszerű.)

Categories: IT Info