Η κινεζική εταιρεία τεχνητής νοημοσύνης Moonshot AI έχει ένα νέο μοντέλο ανοιχτού κώδικα που ονομάζεται Kimi K2 Thinking. Κυκλοφόρησε στις 6 Νοεμβρίου από τη βάση του στο Πεκίνο, σηματοδοτεί ένα σημαντικό βήμα στον παγκόσμιο αγώνα για την κατασκευή τεχνητής νοημοσύνης που μπορεί να ενεργήσει από μόνο του.

Το μοντέλο είναι ένας «σκεπτόμενος πράκτορας». Μπορεί να λύσει δύσκολα προβλήματα χρησιμοποιώντας ψηφιακά εργαλεία σε εκατοντάδες βήματα. Η Moonshot θέλει να νικήσει τους αντιπάλους της στη σκληρή αγορά τεχνητής νοημοσύνης της Κίνας.

Ακολουθώντας τα μοντέλα Kimi K2 και Kimi K2 Turbo με τρισεκατομμύρια παραμέτρους, αυτή η νέα έκδοση εστιάζει σε συλλογισμούς υψηλού επιπέδου και έχει κορυφαίες βαθμολογίες σε βιομηχανικές δοκιμές.

Ένας «Thinking Agent» που κατασκευάστηκε για σύνθετη λογική και χρήση εργαλείων

Από την έδρα της στο Πεκίνο, η Moonshot AI κάνει άλλο ένα επιθετικό παιχνίδι στον τομέα της τεχνητής νοημοσύνης.

Η εταιρεία έχει k Σκεπτόμενος όχι απλώς ως αναβάθμιση, αλλά ως μια νέα κατηγορία μοντέλων που επικεντρώνεται στην αυτόνομη εκτέλεση. Έχει σχεδιαστεί ως ένας «πράκτορας σκέψης» ικανός να συλλογίζει βήμα προς βήμα για να λύνει σύνθετα προβλήματα.

Μια βασική ικανότητα που τονίζεται από την εταιρεία είναι η ικανότητά του να εκτελεί μεταξύ 200 και 300 διαδοχικές κλήσεις εργαλείων, επιτρέποντάς του να ολοκληρώνει περίπλοκες εργασίες πολλαπλών σταδίων χωρίς ανθρώπινη παρέμβαση. ταχύτητα, αυτή η νέα έκδοση δίνει προτεραιότητα στο γνωστικό βάθος. Η υποκείμενη αρχιτεκτονική του παραμένει ένα τεράστιο μοντέλο Mixture-of-Experts (MoE) ενός τρισεκατομμυρίου παραμέτρων, το οποίο ενεργοποιεί 32 δισεκατομμύρια παραμέτρους για οποιοδήποτε δεδομένο διακριτικό.

Σύμφωνα με το

Νέα δεδομένα για τον Οκτώβριο του 2025 από το

Συγκριτικά σημεία αναφοράς Kimi K2

LiveCodeBenchs v6.7.6

48,5 47,4 44,7 44,7 Pass@1 27,1 24,0 11,3 15,3 19,6 19,5 19,5 Pass@1 85,7 83,1 78,2 88,6 89,6 86,7 Δοκιμή Single

Stch (Λόγ 79.4* — —

SWE-bench Multilingual

Single Attempt (Acc) 47.3 25.8 20.9 51.0 — 31.5 —

TerminalBench

Inhouse Framework (Acc) 30.0 — — 35.5.5 30cc —2 σε Όρος.. 64,3

Tau2 αεροπορική εταιρεία

Μέσος όρος @ 4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telecom

Μέσος @ 4 65,8 32,5 22,1 45,2 57,7.7.6. 70,5 76,2 75,6 80,1 74,5 Μέσος @ 64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Μέσος @ 64 49,5 46,7 24,7* 33,1* 76 94,0* 91,2* 94,0 94,4 92,4 95,4 μέσος όρος @ 32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 μέσος @ 16 74,3 74,7 48,6 60,6 605.

PolyMath-en

Μέσος όρος@4 65,1 59,5 51,9 52,8 49,8 54,0 49,9

ZebraLogic

Acc 89,0 84,0 37,7* 79,7 59,3 58,8.38. 89,8 86,1 88,2 84,1

GPQA-Diamond

Μέσος όρος@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Λόγος 57,2 53,7 50,25085.

Humanity’s Last Exam

Acc 4.7 5.2 5.7 5.8 7.1 3.7 5.6 EM 89.5 89.4 87.0 91.5 92.9 90.4 90.1

MMLU-Redux. 94,2 92,4 90,6 EM 81,1 81,2* 77,3 83,7 86,6 81,8 79,4 Prompt Strict 89,8 81,1 83,2* 87,6 87,4 88,0 84,4 cc 88,0 84,3 cc 31,4 34,0 46,8 49,0 36,4 39,5 Σωστό 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8

Categories: IT Info