Das XAI von
Elon Musk hat am Donnerstag ein neues KI-Codierungsmodell,”Grok-Code-Schneider-1″, auf den Markt gebracht, das laut Berichten den wettbewerbsfähigen Agenten-Codierungsmarkt eintrat. Das Startup positioniert sein neues Tool als „schnelle und wirtschaftliche“ Option für alltägliche Entwickleraufgaben, mit der Sie Spieler wie OpenAI und Microsoft gemäß der offiziellen Ankündigung herausfordern möchten. Dieser Schritt erhitzt die laufenden KI-Benchmark-Kriege, in der Unternehmen in einem heftigen Wettbewerb unermüdlich um Top-Ergebnisse bei Leistungstests konkurrieren. Erhöhte Prüfung der Entwicklergemeinschaft. Benchmark-Champion, aber als speziell gebautes Tool, das eine Frustration des Kernentwicklers löst. target=”_ leer”> Agentic-Codierungs-Workflows , wobei iterative Argumentations-und Werkzeugaufrufe frustrierend langsam werden können. Das neue Modell wurde von Grund auf ein flinkes und reaktionsschnelles „täglicher Treiber“ für Entwickler ausgerichtet, die an diesen gemeinsamen Aufgaben beteiligt waren. Der Entwicklungsprozess beinhaltete die Zusammenstellung eines vorhandenen Korpus vor dem Training, der reich an programmierenden Inhalten und kuratierte hochwertige Datensätze nach dem Training ist, die reale Zugangsanforderungen und Codierungsaufgaben widerspiegeln. Python, Java, Rost, C ++ und GO und wurde speziell verfeinert, um gemeinsame Entwickler-Tools wie Grep, Terminal und Dateibearbeitung zu beherrschen. Dies wird weiter durch sofortige Zwischenspeicherungsoptimierungen verbessert, die laut XAI regelmäßig Trefferquoten über 90% erreichen. Das Unternehmen erklärt:”Seine Stärke liegt darin, eine starke Leistung in einem wirtschaftlichen, kompakten Formfaktor zu erzielen, was es zu einer vielseitigen Entscheidung für die schnelle und kostengünstige Bekämpfung gemeinsamer Codierungsaufgaben macht.”Dies spiegelt sich in den Preisen von nur 0,20 USD pro Million Input-Token, 1,50 US-Dollar für die Ausgabe und 0,02 USD für zwischengespeicherte Inputs wider und untergräbt viele Konkurrenten in einem überfüllten Markt erheblich. Das Modell, das unter dem Codenamen”Sonic”leise getestet wurde, wird für eine begrenzte Zeit kostenlos durch eine Reihe von Plattformen angeboten, darunter Github Copilot, Cursor und Windsurf. Mario Rodriguez, Githubs Chief Product Officer, bemerkte:”Bei frühen Tests hat GROK-Code Fast sowohl seine Geschwindigkeit als auch die Qualität bei den agierenden Codierungsaufgaben gezeigt”, signalisierte die frühe Industrie-Validierung für Xais Ansatz. Vormachtstellung in der SWE-Bench-Rangliste, der führenden Bewertung der Branche für KI-Codierungsagenten. Das Startup berichtete über einen respektablen 70,8% igen Punktzahl auf der „vollständigen Untergruppe von SWE-Bench-verifiziert“, die mit einem eigenen internen Testkabelbaum unter Verwendung eines eigenen internen Testkabelbaums nicht rekordverdacht werden, aber es fest in die Top-Stufe eines überfüllten Feldes stellt. Real-World Software Engineering.”Im Gegensatz zu synthetischen Tests, die isolierte Fähigkeiten messen, ist es eine anspruchsvolle Bewertung, die die komplexe, mehrstufige Realität der Softwareentwicklung widerspiegelt. Jede Aufgabe wird von einem tatsächlichen Github-Problem abgeleitet, das in einer von 12 weit verbreiteten Open-Source-Python-Repositories gefunden wurde. Dies macht es zu einem echten Test für die praktischen technischen Funktionen eines Agenten. Die jüngste Runde begann am 5. August, als Anthropic ankündigte, dass der neue Claude Opus 4.1 eine damals hochmoderne Punktzahl von 74,5% auf dem Benchmark erzielt hatte. Nur zwei Tage später, am 7. August, konterte Openai mit dem Start seines mit Spannung erwarteten GPT-5 und behauptete, sein neues Flaggschiff habe seinen Rivalen mit einer Erfolgsrate von 74,9% knapp überschritten und sofort den Spitzenplatz ergriffen. Das Feld wird durch das Vorhandensein kleinerer, aber mächtiger Konkurrenten weiter erschwert. Diese turbulente und überfüllte Landschaft ist die Arena, in die XAI nun seinen neuen, spezanziellen Anwärter strategisch platziert hat. OpenAIs GPT-5-Start war ein Paradebeispiel. Trotz seiner Rekordbewertung wurde das Modell nach seinem Start von einer Reihe bizarrer Fehler und sachlichen Fehler geplagt. Dass „ein fehlerhafter„ Autoswitcher “zwischen den internen Modi des Modells länger geschrieben hatte, schien„ viel dümmer “als beabsichtigt zu sein, und beschuldigte einen technischen Fehler für die schlechte Leistung. Diese Trennung hat breite Skepsis über den Wert von Benchmarks angeheizt.
xai ist für diese Kritik kein Fremder. Das Vorgängermodell GROK 4 wurde auch dafür kritisiert, dass er in akademischen Tests übernommen wurde und gleichzeitig in praktischen Szenarien versagte. Jimmy Lin, Mitbegründer der User-Preference-Plattform Yupp.ai, erklärte unverblümt: „GROK 4 ist schlechter als andere führende Modelle: OpenAI O3, Claude Opus 4 und Gemini 2.5 Pro. GROK 4 ist sogar weniger als weniger als grok 3 gemocht. Durch die Priorisierung von Geschwindigkeit, Kosten und Benutzerfreundlichkeit für Agentenaufgaben setzt das Unternehmen eine strategische Wette vor, dass die reale Nützlichkeitsprogramme letztendlich für Entwickler als einen Spitzenplatz auf einer Rangliste im aktuellen AI-Agent-Rennen von Bedeutung sind. Durch die Umgebung einer direkten Konfrontation an der Spitze der Leistungsbesten