Η κινεζική εταιρεία τεχνητής νοημοσύνης Moonshot AI έχει ένα νέο μοντέλο ανοιχτού κώδικα που ονομάζεται Kimi K2 Thinking. Κυκλοφόρησε στις 6 Νοεμβρίου από τη βάση του στο Πεκίνο, σηματοδοτεί ένα σημαντικό βήμα στον παγκόσμιο αγώνα για την κατασκευή τεχνητής νοημοσύνης που μπορεί να ενεργήσει από μόνο του.
Το μοντέλο είναι ένας «σκεπτόμενος πράκτορας». Μπορεί να λύσει δύσκολα προβλήματα χρησιμοποιώντας ψηφιακά εργαλεία σε εκατοντάδες βήματα. Η Moonshot θέλει να νικήσει τους αντιπάλους της στη σκληρή αγορά τεχνητής νοημοσύνης της Κίνας.
Ακολουθώντας τα μοντέλα Kimi K2 και Kimi K2 Turbo με τρισεκατομμύρια παραμέτρους, αυτή η νέα έκδοση εστιάζει σε συλλογισμούς υψηλού επιπέδου και έχει κορυφαίες βαθμολογίες σε βιομηχανικές δοκιμές.
Ένας «Thinking Agent» που κατασκευάστηκε για σύνθετη λογική και χρήση εργαλείων
Από την έδρα της στο Πεκίνο, η Moonshot AI κάνει άλλο ένα επιθετικό παιχνίδι στον τομέα της τεχνητής νοημοσύνης.
Η εταιρεία έχει k Σκεπτόμενος όχι απλώς ως αναβάθμιση, αλλά ως μια νέα κατηγορία μοντέλων που επικεντρώνεται στην αυτόνομη εκτέλεση. Έχει σχεδιαστεί ως ένας «πράκτορας σκέψης» ικανός να συλλογίζει βήμα προς βήμα για να λύνει σύνθετα προβλήματα.
Μια βασική ικανότητα που τονίζεται από την εταιρεία είναι η ικανότητά του να εκτελεί μεταξύ 200 και 300 διαδοχικές κλήσεις εργαλείων, επιτρέποντάς του να ολοκληρώνει περίπλοκες εργασίες πολλαπλών σταδίων χωρίς ανθρώπινη παρέμβαση. ταχύτητα, αυτή η νέα έκδοση δίνει προτεραιότητα στο γνωστικό βάθος. Η υποκείμενη αρχιτεκτονική του παραμένει ένα τεράστιο μοντέλο Mixture-of-Experts (MoE) ενός τρισεκατομμυρίου παραμέτρων, το οποίο ενεργοποιεί 32 δισεκατομμύρια παραμέτρους για οποιοδήποτε δεδομένο διακριτικό.
Σύμφωνα με το
Νέα δεδομένα για τον Οκτώβριο του 2025 από το
LiveCodeBenchs v6.7.6
48,5 47,4 44,7 44,7 Pass@1 27,1 24,0 11,3 15,3 19,6 19,5 19,5 Pass@1 85,7 83,1 78,2 88,6 89,6 86,7 Δοκιμή Single
Stch (Λόγ 79.4* — —
SWE-bench Multilingual
Single Attempt (Acc) 47.3 25.8 20.9 51.0 — 31.5 —
TerminalBench
Inhouse Framework (Acc) 30.0 — — 35.5.5 30cc —2 σε Όρος.. 64,3
Tau2 αεροπορική εταιρεία
Μέσος όρος @ 4 56,5 39,0 26,5 55,5 60,0 54,5 42,5
Tau2 telecom
Μέσος @ 4 65,8 32,5 22,1 45,2 57,7.7.6. 70,5 76,2 75,6 80,1 74,5 Μέσος @ 64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Μέσος @ 64 49,5 46,7 24,7* 33,1* 76 94,0* 91,2* 94,0 94,4 92,4 95,4 μέσος όρος @ 32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 μέσος @ 16 74,3 74,7 48,6 60,6 605.
PolyMath-en
Μέσος όρος@4 65,1 59,5 51,9 52,8 49,8 54,0 49,9
ZebraLogic
Acc 89,0 84,0 37,7* 79,7 59,3 58,8.38. 89,8 86,1 88,2 84,1
GPQA-Diamond
Μέσος όρος@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Λόγος 57,2 53,7 50,25085.
Humanity’s Last Exam
Acc 4.7 5.2 5.7 5.8 7.1 3.7 5.6 EM 89.5 89.4 87.0 91.5 92.9 90.4 90.1
MMLU-Redux. 94,2 92,4 90,6 EM 81,1 81,2* 77,3 83,7 86,6 81,8 79,4 Prompt Strict 89,8 81,1 83,2* 87,6 87,4 88,0 84,4 cc 88,0 84,3 cc 31,4 34,0 46,8 49,0 36,4 39,5 Σωστό 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8 98,6>
Related Posts
Το FBI απηύθυνε κλήτευση στον καταχωρητή ιστού Tucows, ζητώντας όλες τις πληροφορίες ταυτοποίησης για τους ανώνυμους χειριστές της αμφιλεγόμενης υπηρεσίας αρχειοθέτησης Archive.today. Η ανάρτηση W
Η Microsoft έχει κάνει ένα σημαντικό βήμα στη στρατηγική επεξεργασίας τεχνητής νοημοσύνης ανοιχτού κώδικα, παρέχοντας τις ενσωματωμένες προτάσεις του GitHub Copilot και συγχωνεύοντας επεκτάσεις στο VS Code. Η ανάρτηση Microsoft Open-
Η Meta λανσάρει τη ροή βίντεο που δημιουργείται από την τεχνητή νοημοσύνη «Vibes» στην Ευρώπη, μια κίνηση που αγκαλιάζει το «AI slop» και έρχεται σε άμεση αντίθεση με τις πολιτικές του YouTube κατά του ανεπιθύμητου περιεχομένου. The post Meta Expands ‘V