Meta verschiebt die Torpfosten im KI-Codierungsrennen. The company has released its Code World Model (CWM), a powerful 32-billion-parameter system designed not just to write code, but to fundamentally understand how it Arbeiten. Src=”Daten: Bild/SVG+XML; Nitro-Treppy-ID=Mty0otoxmziw-1; Base64, Phn2zyb2AWV3QM94psiwidagmte2OSA4MJ Yiihdpzhropsixmty5iibozwlnahq9ijgyniig1Sbnm9imH0DHA6LY93D3CUDZMUB3JNLZIWMDAVC3ZNIJ48L3N2ZZ4=”> Das Ziel von
Meta ist laut seinen Forschern, die Lücke zwischen dem aussieht, wie Code aussieht und dem, was er bei der Ausführung tatsächlich tut. Wie ein Forscher erklärte: „Um die Codierung zu beherrschen, muss man nicht nur verstehen, wie Code aussieht, sondern wie er bei der Ausführung tut. Anstatt nur den statischen Code zu analysieren, lernte das Modell aus über 120 Millionen „Ausführungsspuren“ von Python-Programmen. Durch das Verständnis der Konsequenzen jeder Codezeile kann CWM Aufgaben über die einfache Generation hinaus ausführen. Diese tiefere Argumentation unterscheidet es in einem überfüllten Feld. Bei SWE-Bench verifizierte das Modell einen anspruchsvollen Test der realen Software-Engineering, und stieg mit einer Testerzeit-Skalierung auf beeindruckende 65,8%. weit über einen einzigen Test hinaus. Laut der Forschungsarbeit von Meta zeigt CWM auch eine breite Kompetenz, indem sie 68,6% für LivecodeBench, 96,6% für Math-500 und 76% für die mathematische Aime 2024-Olympiade in Math-500 und 76% bewertet. CWM zeichnet sich besonders in Aufgaben aus, die ein tiefes Verständnis des Programmverhaltens erfordern.
Darüber hinaus erreichte CWM auf einem neuartigen Benchmark namens Halteval eine bemerkenswerte Genauigkeit von 94% bei der Vorhersage, ob ein Programm in einer unendlichen Schleife beendet oder stecken würde. Die hohe Punktzahl des Modells von 94,3% für den Cruxeval-Benchmark für das Codeverständnis unterstreicht den Erfolg des Meta-Ansatzes weiter. (15)
Navigiert durch den breiteren „Benchmark-Kriege“
METAs Eintrag, da sich die Branche mit den Grenzen der Benchmark-Werte auseinandersetzt. Im Sommer 2025 schloss sich ein heiter Kampf um den Spitzenplatz auf Swe-Bench, wobei der Claude Opus 4.1 von Anthropic nur zwei Tage später von OpenAs GPT-5 in den Schatten gestellt wurde. Mario Rodriguez von Github stellte fest, dass „bei frühen Tests der Grok-Code Fast sowohl seine Geschwindigkeit als auch die Qualität bei agierenden Codierungsaufgaben gezeigt hat. Materie mehr als eine Rangliste. OpenAI hat kürzlich GPT-5-CODEX gestartet, eine Codierungsversion von GPT-5, die stundenlang autonom funktionieren kann. Gemini zeigte übermenschliche Problemlösung.
dr. Bill Pouch, der ICPC-Direktor, hat diese Ergebnisse als einen entscheidenden Moment eingerahmt und sagte: „Gemini tritt in dieser Arena erfolgreich an und markiert einen wichtigen Moment bei der Definition der KI-Tools und der für die nächsten Generation erforderlichen akademischen Standards. href=”https://huggingface.co/facebook/cwm”target=”_ leer”> verfügbar für die Forschungsgemeinschaft über das Umarmungsgesicht . Das Modell, das auf einer einzelnen NVIDIA H100 GPU ausgeführt werden kann, ist nicht für den allgemeinen Chat abgestimmt und unterstreicht seinen Zweck als Instrument, um die Wissenschaft von AI selbst voranzutreiben.