Chińska firma Moonshot AI zajmująca się sztuczną inteligencją opracowała nowy model typu open source o nazwie Kimi K2 Thinking. Wystrzelony 6 listopada ze swojej bazy w Pekinie, stanowi ważny krok w globalnym wyścigu w budowaniu sztucznej inteligencji, która może działać samodzielnie.

Model to „myślący agent”. Może rozwiązywać trudne problemy za pomocą narzędzi cyfrowych w setkach kroków. Moonshot chce pokonać swoich rywali na trudnym chińskim rynku sztucznej inteligencji.

Podążając za modelami Kimi K2 i Kimi K2 Turbo o bilionach parametrów, nowa wersja skupia się na rozumowaniu na wysokim poziomie i osiąga najwyższe wyniki w testach branżowych.

„Myślący agent” stworzony do złożonego rozumowania i użycia narzędzi

Z siedziby głównej w Pekinie Moonshot AI podejmuje kolejną agresywną grę w sektorze sztucznej inteligencji.

Firma ustawiła Kimi K2 Thinking nie tylko jako ulepszenie, ale jako nową klasę modelu skupionego o autonomicznym wykonaniu. Zostało zaprojektowane jako „myślący agent” zdolny do rozumowania krok po kroku w celu rozwiązywania złożonych problemów.

Kluczową cechą podkreśloną przez firmę jest zdolność do wykonywania od 200 do 300 sekwencyjnych wywołań narzędzi, co pozwala na wykonywanie skomplikowanych, wieloetapowych zadań bez interwencji człowieka.

W przeciwieństwie do swojego poprzednika, Kimi K2 Turbo, który skupiał się na czystej szybkości, w tej nowej wersji priorytetem jest głębia poznawcza. Jego podstawową architekturą pozostaje ogromny model Mixture-of-Experts (MoE) obejmujący jeden bilion parametrów, aktywujący 32 miliardy parametrów dla dowolnego tokena.

Według oficjalnej karty modelu ma ona rozszerzoną długość kontekstu wynoszącą 256 KB. To ogromne okno umożliwia przetwarzanie i analizowanie całych baz kodu lub setek stron dokumentów w jednym przebiegu, co jest kluczową funkcją w przypadku złożonych zadań w przedsiębiorstwie.

Istotną innowacją techniczną jest natywna kwantyzacja INT4 osiągnięta za pomocą metody zwanej szkoleniem z uwzględnieniem kwantyzacji (QAT). Dzięki temu model może wykonywać obliczenia z mniejszą precyzją, skutecznie podwajając prędkość wnioskowania, zachowując jednocześnie wydajność swoich bardziej precyzyjnych odpowiedników.

Dla programistów sprawia to, że wdrożenie modelu o bilionach parametrów jest bardziej wykonalne obliczeniowo i opłacalne, co zmniejsza główną barierę w jego przyjęciu.

Moonshot raportuje, że Kimi K2 Thinking uzyskała 44,9 punktów w ostatnim egzaminie Humanity (z narzędziami), będącym teście wiedzy na poziomie eksperckim. W przypadku zadań wyszukiwania i przeglądania agentowego, takich jak BrowseComp, uzyskał wynik 60,2, a w teście kodowania agenta SWE-Bench Verified osiągnął wynik 71,3. (zobacz pełną tabelę testów porównawczych na końcu)

Te wyniki plasują go na czele modeli open source zaprojektowanych pod kątem możliwości agentycznych.

Strategiczny gambit w zaciekłych chińskich wojnach ze sztuczną inteligencją

Wypuszczenie Kimi K2 Thinking to wykalkulowane posunięcie na hiperkonkurencyjnym chińskim rynku sztucznej inteligencji, często nazywanym „wojną stu” modele.”

Moonshot AI, niegdyś wschodząca gwiazda, stanęła w obliczu intensywnej presji ze strony krajowych rywali, takich jak DeepSeek, Z.ai i Alibaba. Ten nowy model stanowi bezpośrednią próbę odzyskania pozycji lidera poprzez przeniesienie nacisku na konkurencyjność z szybkości i ceny na wyrafinowane rozumowanie i skuteczność działania.

Ten zwrot następuje po trudnym okresie dla firmy. Oryginalny model Kimi K2, wprowadzony na rynek w lipcu, był odważną grą typu open source.

Jednak rynek szybko nasycił się tanimi alternatywami, szczególnie od konkurencyjnego DeepSeek, co wywołało zaciekłą wojnę cenową. Miało to bezpośredni wpływ na bazę użytkowników aplikacji czatowej Kimi firmy Moonshot, która odnotowała spadek w krajowym rankingu.

Świeże dane za październik 2025 r. pochodzące od Statcounter potwierdza ostrą konkurencję, pokazując, że Moonshot nie należy obecnie do najwyżej ocenianych dostawców chatbotów AI w Chinach.

Moonshot obstawia, że doskonałe możliwości w powstającej dziedzinie agentycznej sztucznej inteligencji mogą zbudować łatwiejszą do obrony pozycję rynkową niż konkurowanie wyłącznie kosztem. Jednak to intensywne skupienie się na wynikach w rankingach niesie ze sobą ryzyko.

Jak zauważył wcześniej Nate Jones, specjalista ds. strategii sztucznej inteligencji, „w chwili, gdy za cel postawimy sobie dominację w rankingach, ryzykujemy utworzeniem modeli, które będą wyróżniać się w trywialnych ćwiczeniach i zawodzą w obliczu rzeczywistości”. Celem Moonshot jest udowodnienie, że jego zwycięstwa w benchmarkach przekładają się na użyteczność w świecie rzeczywistym niezbędną do odzyskania udziału w rynku.

[treść osadzona]

Globalny wyścig o dominację agentów

Najnowsze przedsięwzięcie Moonshot jest częścią fundamentalnej globalnej zmiany w branży sztucznej inteligencji. Firmy wychodzą poza chatboty, które po prostu generują sugestie dotyczące tekstu lub kodu.

Nowym obszarem tej technologii jest inteligencja agentyczna: tworzenie autonomicznych systemów, które potrafią zrozumieć cel wysokiego poziomu, sformułować plan i wykorzystać różnorodne narzędzia cyfrowe do jego realizacji. Kimi K2 Thinking jest specjalnie zaprojektowany do konkurowania na tej arenie.

Wartość tego agentycznego podejścia została już udowodniona w świecie korporacji. Przełomowym posunięciem był bank inwestycyjny Goldman Sachs, który rozpoczął pilotażowe prace nad autonomicznym programistą AI Devinem, aby stworzyć „hybrydową siłę roboczą”. Jej wizja zakłada, że inżynierowie będą nadzorować floty agentów sztucznej inteligencji, zmieniając charakter tworzenia oprogramowania.

Szef techniczny Goldmana, Marco Argenti, wyjaśnił strategię, stwierdzając: „tak naprawdę chodzi o ludzi i sztuczną inteligencję pracujących ramię w ramię. Od inżynierów oczekuje się umiejętności naprawdę opisywania problemów w spójny sposób i przekształcania ich w podpowiedzi…”

Taka zmiana odzwierciedla przyszłość, w której podstawowa ludzka umiejętność nie będzie nudna wykonanie, ale definiowanie problemów na wysokim poziomie i nadzór.

Budując model, który wyróżnia się złożonym, wieloetapowym użyciem narzędzi, Moonshot AI pozycjonuje się na kluczowego gracza w tym nowym paradygmacie. Dzięki Kimi K2 Thinking firma stawia o wysoką stawkę, że w świecie zalanym potężnymi modelami ten, który potrafi najskuteczniej rozumować, ostatecznie zwycięży w ekosystemie programistów.

Testy porównawcze Kimi K2

LiveCodeBench v6

Pass@1 53,7 46,9 37,0 48,5 47,4 44,7 44,7 Zaliczony przy 1 27,1 24,0 11,3 15,3 19,6 19,5 19,5 Zaliczony przy 1 85,7 83,1 78,2 88,6 89,6 86,7 85,6

Zweryfikowany w SWE-bench

Pojedynczy plaster bez testu (Acc) 51,8 36,6 39,4 50,2 53,0 40,8 32,6

SWE zweryfikowane

Pojedyncza próba (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 — Wiele prób (Acc) 71,6 — — 80,2* 79,4* — —

SWE-bench Wielojęzyczny

Pojedyncza próba (Acc) 47,3 25,8 20,9 51,0 — 31,5 —

TerminalBench

Inhouse Framework (Acc) 30,0 — — 35,5 43,2 8,3 — Terminus (Acc) 25,0 16,3 6,6 — — 30,3 16,8

Aider-Polyglot

Acc 60,0 55,1 61,8 56,4 70,7 52,4 44,0

Tau2 sprzedaż detaliczna

Średnia@4 70,6 69,1 57,0 75,0 81,8 74,8 64,3

Linia lotnicza Tau2

Średnia@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telekomunikacja

Średnia@4 65,8 32,5 22,1 45,2 57,0 38,6 16,9 Acc 76,5 72,7 70,5 76,2 75,6 80,1 74,5 Średnio przy 64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Średnio przy 64 49,5 46,7 24,7* 33,1* 33,9* 37,0 46,6 Przy 97,4 94,0* 91,2* 94,0 94,4 92,4 95,4 Średnia@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Średnia@16 74,3 74,7 48,6 60,4 57,6 56,6 75,0

PolyMath-en

Średnia@4 65,1 59,5 51,9 52,8 49,8 54,0 49,9

ZebraLogic

wg 89,0 84,0 37,7* 79,7 59,3 58,5 57,9 wg 89,5 88,9 83,3* 89,8 86,1 88,2 84,1

Diament GPQA

Średnia@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Acc 57,2 53,7 50,2 55,7 56,5 50,8 49,6

Ostatni egzamin ludzkości

Acc 4,7 5,2 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,2* 93,6 94,2 92,4 90,6 EM 81,1 81,2* 77,3 83,7 86,6 81,8 79,4 Natychmiastowe Ścisłe 89,8 81,1 83,2* 87,6 87,4 88,0 84,3

Wiele wyzwań

Acc 54,1 31,4 34,0 46,8 49,0 36,4 39,5 Poprawnie 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Zaliczony@1 76,4 72,4 67,6 74,8 74,6 69,8  

(Źródło: Moonshot AI)

Categories: IT Info