Moonshot AI con sede en Beijing lanzó Kimi K2 el viernes, una serie de modelos de IA de código abierto destinada a reclamar el liderazgo del mercado en el competitivo sector de IA de China. El lanzamiento es un movimiento estratégico para desafiar a los rivales como Deepseek y competir a nivel mundial con las empresas estadounidenses.
Kimi K2 es un modelo masivo de la mezcla de expertos con 1 billón de parámetros. Está diseñado específicamente para”inteligencia de agente”, lo que le permite ejecutar tareas complejas de forma autónoma y usar herramientas digitales. Moonshot enfatiza la capacidad de Kimi K2 para actuar, no solo chatear, posicionándolo como nueva herramienta poderosa para desarrolladores .
El lanzamiento del 11 de julio es un momento importante para el startup de alibaba. Fundada en 2023 por el graduado de la Universidad de Tsinghua Yang Zhilin, Moonshot Ai rápidamente ganó prominencia, pero su posición de mercado recientemente ha sido desafiada por movimientos agresivos de competidores locales. Este lanzamiento es una respuesta directa y contundente.
>
Un gambito estratégico en la feroz base de usuarios de Ai Wars de China
Moonshot para su aplicación Kimi vio su clasificación de la tercera al séptimo lugar en China entre agosto de 2024 y junio de 2025. Esta disminución siguió el lanzamiento disruptivo de los modelos de bajo costo por Rival Deepsek, que intensificó el precio doméstico y el rendimiento doméstico. El lanzamiento de Kimi K2 es una oferta clara para revertir esta tendencia.
mediante la transferencia de su modelo insignia, Moonshot está adoptando una estrategia cada vez más favorecida por las empresas tecnológicas chinas. Este enfoque ayuda a construir una amplia comunidad de desarrolladores y expande la influencia global, sirviendo como una poderosa contramedida para las restricciones tecnológicas de los Estados Unidos. Es un gambito ganar corazones y mentes a través del código.
La compañía está lanzando el modelo bajo A Licencia de MIT modificada , fomentando la adopción y experimentación. Este movimiento tiene como objetivo restablecer a Kimi como una plataforma de referencia para los desarrolladores, apostando a que la capacidad superior y un ecosistema abierto pueden recuperar la cuota de mercado.
El rendimiento de referencia y la posición competitiva
de acuerdo con los datos de rendimiento publicados por Moonshot AI, el modelo KIMI-K2-incructivo se evaluó contra otros principales modelos de propiedad abierta. Los resultados indican un rendimiento competitivo en varias áreas clave, incluida la codificación, el uso de herramientas y el razonamiento complejo.
En los puntos de referencia de codificación, Kimi K2 logró una puntuación de 53.7 en LivecodeBench V6, en comparación con 47.4 para Claude Opus 4 y 44.7 para GPT-4.1. En la prueba de codificación de agente verificada, su precisión de un solo triturador fue del 65.8%, lo que lo colocó por encima del 38.8%de Deepseek-V3 y el 54.6%de GPT-4.1, mientras seguía el puntaje de Claude Sonnet 4 de 72.7%.
Las capacidades del modelo en el uso de la herramienta se probaron en comparaciones como Tau2. En la tarea de telecomunicaciones TAU2, Kimi K2 obtuvo 65.8, que fue más alto que los puntajes informados para GPT-4.1 (38.6) y Claude Sonnet 4 (45.2). Esto sugiere una fuerte aptitud para la interfaz con herramientas externas para completar los objetivos.
Para las matemáticas y el razonamiento, Kimi K2 también demostró resultados sólidos. En el punto de referencia de la competencia de matemáticas AIME 2024, su puntaje de 69.6 fue más alto que el de Gemini 2.5 Flash (61.3) y Claude Opus 4 (48.2). Del mismo modo, en la prueba de razonamiento GPQA-Diamond, su puntaje de 75.1 excedió ligeramente de Claude Opus 4 74.9.
en evaluaciones de conocimiento general como el punto de referencia MMLU, Kimi K2 obtuvo 89.5. Esto lo coloca en estrecha competencia con otros modelos fronterizos, con GPT-4.1 anotando 90.4 y Claude Opus 4 logrando 92.9. Colectivamente, los datos sugieren que Kimi K2 es un modelo altamente capaz, particularmente en la categoría de código abierto.
bajo el capó: un agente de billones de parámetros construido para la acción
kimi k2is un modelo de mezcla (moe) con un modelo de parámetro total de un triphorador, sin embargo, un parámetro total de un triphorio, siempre un parámetro total de un triphorio, sin embargo, un par de parámetros de mezcla de un bosque de un triphorio. href=”https://moonshotai.github.io/kimi-k2/”target=”_ en blanco”> 32 mil millones se activan para cualquier token dado . Esta arquitectura, similar a la utilizada por Rival Deepseek-V3, está diseñada para la eficiencia computacional a escala masiva, un factor clave para la implementación práctica.
La arquitectura del modelo admite una longitud de contexto de 128k y un tamaño de vocabulario de 160k. Cuenta con 384 expertos distintos, y se seleccionan ocho para procesar cada token, lo que permite un cálculo altamente especializado y eficiente. Este diseño es el resultado del análisis de la ley de escala destinada a maximizar la eficiencia del token.
El modelo se entrenó previamente en un tokens de datos de 15.5 billones de datos. Para administrar este proceso sin falla, Moonshot desarrolló un novedoso optimizador”Muonclip”. Esta técnica es una evolución de su el trabajo anterior en el optimizador de muon , que supera el optimizador estándar de Adamw pero puede sufrir una inestabilidad a escala.
logits”que pueden descarrilar el desarrollo del modelo a gran escala. La compañía informa que este método le permitió completar el entrenamiento de token de 15.5t completo con”cero pico de entrenamiento”, destacando su robustez.
Más allá de la arquitectura central, las capacidades de agente de Kimi K2 se perfeccionaron a través de una fama de síntesis de datos sofisticada. Este sistema simula escenarios del mundo real con miles de herramientas, incluidas las compatibles con el Protocolo de contexto del modelo (MCP), para generar datos de entrenamiento basados en rúbricas de alta calidad para el uso de herramientas.
Además, Moonshot empleó un sistema de”aprendizaje general de refuerzo”. Esto implica un mecanismo de juzgación auto-juzgada donde el modelo actúa como su propio crítico para proporcionar comentarios sobre las tareas con recompensas no verificables, como escribir un informe, un paso crucial en el desarrollo de habilidades de agente más generales y confiables.
Moonshot provides access to Kimi K2 through its Kimi chat app, a API de desarrollador , y Problema que planea abordar .
La carrera global para la inteligencia agente
la núcleo de innovación es el núcleo de la lunar es el núcleo es el núcleo es el núcleo es el núcleo es el núcleo es el núcleo es el núcleo. La inteligencia de la agente después de la industria fundamental de la industria se aleja de los asistentes de IA que simplemente sugieren texto o código. Los agentes de IA están diseñados para comprender un objetivo, crear un plan y usar herramientas para ejecutar tareas complejas y de varios pasos.
El valor de este enfoque de agente ya está siendo validado por las empresas. En un movimiento histórico, el banco de inversiones Goldman Sachs acaba de comenzar a pilotar el codificador autónomo de IA Devin. El banco tiene como objetivo construir una”fuerza laboral híbrida”donde sus ingenieros humanos supervisen a miles de agentes de IA.
El jefe de tecnología de Goldman, Marco Argenti, explicó la visión, indicando:”Realmente se trata de las personas y el trabajo de trabajo. Nuestra fuerza laboral con Devin, que será como nuestro nuevo empleado que comenzará a hacer cosas en nombre de nuestros desarrolladores”, cambiando el enfoque humano de la codificación tediosa a la supervisión de alto nivel.
Esta tendencia no se limita a las finanzas. El mercado de codificación de IA más amplio es un campo de batalla, con Google lanzando su agente Jules y Gemini CLI gratuito. Operai le dio acceso a Internet de su agente de Codex, aunque el CEO Sam Altman advirtió a los usuarios que”lean sobre los riesgos con cuidado y lo usen cuando tenga sentido”, reconociendo los riesgos inherentes.
Mientras tanto, las nuevas empresas se centran en la integración profunda del flujo de trabajo. AnySphere, fabricante del popular editor de IA Cursor, lanzó recientemente una aplicación web para administrar sus agentes de codificación desde cualquier dispositivo. Esta estrategia de”superficie múltiple”tiene como objetivo hacer de IA un colaborador ambiental y siempre presente.