La empresa china de inteligencia artificial Moonshot AI tiene un nuevo modelo de código abierto llamado Kimi K2 Thinking. Lanzado el 6 de noviembre desde su base en Beijing, marca un paso importante en la carrera global para construir una IA que pueda actuar por sí sola.

El modelo es un”agente pensante”. Puede resolver problemas difíciles utilizando herramientas digitales en cientos de pasos. Moonshot quiere vencer a sus rivales en el difícil mercado de IA de China.

Siguiendo los modelos Kimi K2 y Kimi K2 Turbo de billones de parámetros, esta nueva versión se centra en el razonamiento de alto nivel y obtiene las mejores puntuaciones en las pruebas de la industria.

Un’agente pensante’creado para el razonamiento complejo y el uso de herramientas

Desde su sede en Beijing, Moonshot AI está haciendo otra jugada agresiva en el sector de la IA.

La compañía ha posicionado a Kimi K2 Thinking no solo como una actualización, sino como una nueva clase de modelo centrado en la autonomía. ejecución. Está diseñado como un”agente pensante”capaz de razonar paso a paso para resolver problemas complejos.

Una capacidad clave destacada por la empresa es su capacidad para ejecutar entre 200 y 300 llamadas secuenciales a herramientas, lo que le permite completar tareas complejas de varias etapas sin intervención humana.

A diferencia de su predecesor, Kimi K2 Turbo, que se centró en la velocidad bruta, esta nueva versión prioriza la profundidad cognitiva. Su arquitectura subyacente sigue siendo un modelo masivo de Mezcla de Expertos (MoE) de un billón de parámetros, que activa 32 mil millones de parámetros para cualquier token determinado.

Según la tarjeta modelo oficial, presenta una longitud de contexto expandida de 256K. Esta enorme ventana le permite procesar y analizar bases de código completas o cientos de páginas de documentos en una sola pasada, una característica crucial para tareas empresariales complejas.

Una innovación técnica significativa es su cuantificación INT4 nativa, lograda a través de un método llamado Quantization-Aware Training (QAT). Esto permite que el modelo se ejecute con cálculos de menor precisión, duplicando efectivamente su velocidad de inferencia y al mismo tiempo manteniendo el rendimiento de sus contrapartes de mayor precisión.

Para los desarrolladores, esto hace que la implementación de un modelo de un billón de parámetros sea más factible y rentable desde el punto de vista computacional, lo que reduce una barrera importante para la adopción.

Moonshot informa que Kimi K2 Thinking obtuvo una puntuación de 44,9 en el último examen de la humanidad (con herramientas), una prueba de conocimiento de nivel experto. En tareas de búsqueda y navegación agentes como BrowseComp, obtuvo una puntuación de 60,2 y en la prueba de codificación agente SWE-Bench Verified, alcanzó 71,3. (consulte la tabla de puntos de referencia completa al final)

Estos resultados lo ubican en la frontera de los modelos de código abierto diseñados para capacidades agentes.

Una táctica estratégica en las feroces guerras de IA de China

El lanzamiento de Kimi K2 Thinking es un movimiento calculado en el hipercompetitivo mercado de IA de China, a menudo denominado la”guerra de los cien modelos”.

Moonshot AI, que alguna vez fue una estrella en ascenso, se ha enfrentado a una intensa presión de rivales nacionales como DeepSeek, Z.ai y Alibaba. Este nuevo modelo es un intento directo de recuperar el liderazgo cambiando el enfoque competitivo de la velocidad y el precio a un razonamiento sofisticado y un desempeño de agencia.

Este giro se produce después de un período desafiante para la empresa. Su modelo original Kimi K2, lanzado en julio, fue una apuesta audaz de código abierto.

Sin embargo, el mercado rápidamente se saturó con alternativas de bajo costo, particularmente de su rival DeepSeek, lo que desencadenó una feroz guerra de precios. Esto afectó directamente a la base de usuarios de la aplicación de chat Kimi de Moonshot, que vio caer su ranking nacional.

Datos recientes para octubre de 2025 de Statcounter confirma la dura competencia, que muestra que Moonshot no se encuentra actualmente entre los proveedores de chatbot de IA mejor clasificados en China.

Moonshot apuesta a que una capacidad superior en el campo emergente de la IA agente puede construir una posición de mercado más defendible que competir únicamente en función de los costos. Sin embargo, este intenso enfoque en el desempeño de la tabla de clasificación conlleva sus propios riesgos.

Como señaló anteriormente el estratega de IA Nate Jones,”en el momento en que establecemos el dominio de la tabla de clasificación como objetivo, corremos el riesgo de crear modelos que sobresalgan en ejercicios triviales y fracasen al enfrentar la realidad”. Moonshot tiene como objetivo demostrar que sus victorias en los puntos de referencia se traducen en la utilidad en el mundo real necesaria para recuperar participación de mercado.

[contenido incorporado]

La carrera global por la supremacía agente

El último esfuerzo de Moonshot es parte de un cambio global fundamental en la industria de la IA. Las empresas están yendo más allá de los chatbots que simplemente generan sugerencias de texto o código.

Su nueva frontera es la inteligencia agente: crear sistemas autónomos que puedan comprender un objetivo de alto nivel, formular un plan y utilizar una variedad de herramientas digitales para ejecutarlo. Kimi K2 Thinking está diseñado explícitamente para competir en este ámbito.

El valor de este enfoque de agencia ya se está demostrando en el mundo empresarial. En un movimiento histórico, el banco de inversión Goldman Sachs comenzó a probar el codificador autónomo de IA Devin para crear una”fuerza laboral híbrida”. Su visión es que los ingenieros humanos supervisen flotas de agentes de IA, transformando la naturaleza del desarrollo de software.

El jefe tecnológico de Goldman, Marco Argenti, explicó la estrategia afirmando que”en realidad se trata de personas y IA trabajando lado a lado. Se esperará que los ingenieros tengan la capacidad de describir realmente los problemas de una manera coherente y convertirlos en indicaciones…”

Tal cambio refleja un futuro en el que la habilidad humana primaria no es tediosa ejecución sino definición y supervisión de problemas de alto nivel.

Al construir un modelo que sobresale en el uso de herramientas complejas de varios pasos, Moonshot AI se está posicionando para ser un actor clave en este nuevo paradigma. Con Kimi K2 Thinking, la compañía está haciendo una apuesta de alto riesgo de que en un mundo inundado de modelos poderosos, el que pueda razonar con mayor eficacia finalmente ganará el ecosistema de desarrolladores.

Kimi K2 Benchmarks

LiveCodeBench v6

Pass@1 53,7 46,9 37,0 48,5 47,4 44,7 44,7 Aprobado@1 27,1 24,0 11,3 15,3 19,6 19,5 19,5 Aprobado@1 85,7 83,1 78,2 88,6 89,6 86,7 85,6

SWE-bench Verified

Parche único sin prueba (Acc) 51,8 36,6 39,4 50,2 53,0 40,8 32,6

SWE-bench Verified

Intento único (Acc) 65,8 38,8 34,4 72,7* 72,5* 54,6 — Intentos múltiples (Acc) 71,6 — — 80,2* 79,4* — —

SWE-bench Multilingüe

Único Intento (Acc) 47,3 25,8 20,9 51,0 — 31,5 —

TerminalBench

Marco interno (Acc) 30,0 — — 35,5 43,2 8,3 — Terminal (Acc) 25,0 16,3 6,6 — — 30,3 16,8

Aider-Polyglot

Acc 60,0 55,1 61,8 56,4 70,7 52,4 44,0

Tau2 minorista

Promedio@4 70,6 69,1 57,0 75,0 81,8 74,8 64,3

Aerolínea Tau2

Promedio@4 56,5 39,0 26,5 55,5 60,0 54,5 42,5

Tau2 telecomunicaciones

Promedio@4 65,8 32,5 22,1 45,2 57,0 38,6 16,9 Acc 76,5 72,7 70,5 76,2 75,6 80,1 74,5 Promedio@64 69,6 59,4* 40,1* 43,4 48,2 46,5 61,3 Promedio@64 49,5 46,7 24,7* 33,1* 33,9* 37,0 46,6 Acc 97,4 94,0* 91,2* 94,0 94,4 92,4 95,4 Promedio@32 38,8 27,5 11,9 15,9 15,9 19,4 34,7 Promedio@16 74,3 74,7 48,6 60,4 57,6 56,6 75,0

PolyMath-es

Promedio@4 65,1 59,5 51,9 52,8 49,8 54,0 49,9

ZebraLogic

Acc 89,0 84,0 37,7* 79,7 59,3 58,5 57,9 Acc 89,5 88,9 83,3* 89,8 86,1 88,2 84,1

GPQA-Diamond

Promedio@8 75,1 68,4* 62,9* 70,0* 74,9* 66,3 68,2 Acc 57,2 53,7 50,2 55,7 56,5 50,8 49,6

Último examen de la humanidad

Acc 4,7 5,2 5,7 5,8 7,1 3,7 5,6 EM 89,5 89,4 87,0 91,5 92,9 90,4 90,1

MMLU-Redux

EM 92,7 90,5 89,2* 93,6 94,2 92,4 90,6 EM 81,1 81,2* 77,3 83,7 86,6 81,8 79,4 Inmediato Estricto 89,8 81,1 83,2* 87,6 87,4 88,0 84,3

Reto múltiple

Acc 54,1 31,4 34,0 46,8 49,0 36,4 39,5 Correcto 31,0 27,7 13,2 15,9 22,8 42,3 23,3 Pass@1 76,4 72,4 67,6 74,8 74,6 69,8  

(Fuente: Moonshot AI)

Categories: IT Info