AI startup Qodo ay pumasok sa mabangis na”benchmark war”para sa coding supremacy. Noong Agosto 11, inihayag ng kumpanya ang bagong ahente nito, ang Qodo Command, ay nag-iskor ng isang kahanga-hangang 71.2% sa SWE-Bench na na-verify na pagsubok. Ang resulta na ito ay nagtulak ng Qodo nang direkta sa isang mapagkumpitensyang arena na pinamamahalaan ng mga higante tulad ng antropiko at openai. Ang Qodo Command ay itinayo sa Langgraph at pinapayagan na gumamit ng mga modelo mula sa OpenAi, Anthropic at iba pa para sa mga gawain sa pag-cod. Ang Anthropic at Openai kamakailan ay lumukso sa bawat isa para sa tuktok na lugar, na nag-aangkin ng mga marka ng 74.5% at 74.9%, ayon sa pagkakabanggit. Ang walang tigil na lahi para sa pangingibabaw ng benchmark ay mabilis na lumalakas. Ang mga modelo ng high-scoring tulad ng bagong GPT-5 ng Openai ay nahaharap sa kaguluhan sa publiko, na nagtataas ng mga kritikal na katanungan tungkol sa kung ang tagumpay ng benchmark ay tunay na isinasalin sa maaasahan, handa na pagganap. Swe-Bench Gauntlet: Isang Bagong Coding World Champion tuwing iba pang linggo Ang mabilis na sunog na serye ng mga anunsyo mula sa mga nangungunang lab ng industriya ay nagtatampok ng isang “pinalakas ng claude”solution . Tinutukoy nito na lumitaw ang Claude 4 bilang modelo ng pagpili nito para sa pagkamit ng mga kahanga-hangang mga resulta ng SWE-Bench. Sa kabila ng record-setting na marka at mapaghangad na mga pag-angkin mula sa CEO Sam Altman na”ito ang pinakamahusay na modelo sa mundo sa coding… ang pinakamahusay na modelo sa mundo sa pagsulat, ang pinakamahusay na modelo sa mundo sa pangangalaga sa kalusugan, at isang mahabang listahan ng mga bagay na lampas sa na,”Ang paglulunsad ng modelo ay isang malapit na sakuna. Ang modelo ay gumawa ng mga mapa na may mga kathang-isip na estado, nabigo ang pangunahing matematika, at naimbento ang mga pangulo ng US, na humahantong sa malawakang panunuya at pagsira sa kredibilidad ng kumpanya. Inamin niya na ang”isang faulty’autoswitcher’sa pagitan ng mga panloob na mode ng modelo ay ginawa ito sa mas mahabang oras na’tila paraan ng Dumber’kaysa sa inilaan,”isang teknikal na kapintasan na naging hindi gaanong may kakayahang ang modelo kaysa sa inilaan. Sa isang makabuluhang pagbabalik-tanaw, ipinangako ni Openai na
Categories: IT Info