Deepseek libera modelo V3.2 AI con"atención escasa"para aumentar la eficiencia

El desarrollador chino de IA DeepSeek ha lanzado DeepSeek-V3.2-Exp, un modelo experimental que llama un”paso intermedio”hacia su arquitectura de próxima generación. La compañía con sede en Hangzhou anunció el modelo de código abierto el lunes, revelando que fue diseñado para probar un método nuevo y más eficiente para procesar largas secuencias de texto.

El lanzamiento es un momento crucial para firme. Su muy esperado modelo R2 se retrasó indefinidamente a principios de este año debido a la escasez de hardware. En una medida simultánea que intensifica la guerra de precios de la IA en China, DeepSeek también anunció que está recortando los precios de sus API. en más del 50 %, lo que ejerce presión directa sobre los rivales nacionales.

Un salto experimental con DeepSeek Sparse Attention

La principal innovación en V3.2-Exp es una mecanismo que la compañía llama DeepSeek Sparse Attention (DSA).

Como versión experimental, el nuevo modelo se basa en su predecesor, V3.1-Terminus, con el objetivo específico de explorar y validar optimizaciones para la eficiencia del entrenamiento y la inferencia en escenarios de contexto largo.

Según la compañía, DSA logra una atención dispersa detallada por primera vez. Esta nueva arquitectura está diseñada para ofrecer mejoras sustanciales en la eficiencia computacional al procesar secuencias de texto extendidas, un cuello de botella clave para muchas aplicaciones de IA a gran escala, manteniendo al mismo tiempo una calidad de salida del modelo prácticamente idéntica.

Para demostrar rigurosamente el impacto de la nueva arquitectura, DeepSeek tomó una decisión estratégica para evitar perseguir puntuaciones en las tablas de clasificación.

En lugar de ello, el equipo alineó deliberadamente las configuraciones de entrenamiento de V3.2-Exp con V3.1-Terminus. Los datos de referencia muestran que los dos modelos funcionan de manera casi idéntica en pruebas de razonamiento y codificación, aislando las ganancias de eficiencia como única variable.

El modelo está disponible en la plataforma Hugging Face bajo una licencia MIT permisiva, lo que fomenta una amplia adopción. DeepSeek también ha lanzado kernels de código abierto para investigación y uso de alto rendimiento, lo que indica un fuerte compromiso para involucrar a la comunidad de desarrolladores con sus innovaciones arquitectónicas.

Un giro estratégico después del estancamiento del modelo R2

Este lanzamiento experimental sigue a un período turbulento para DeepSeek, lo que marca un giro estratégico después de que su modelo R2 de próxima generación fuera se estancó indefinidamente a mediados de 2025.

El retraso fue una consecuencia directa de la guerra tecnológica entre Estados Unidos y China, que ha restringido severamente el acceso a los chips Nvidia de alto rendimiento esenciales para el entrenamiento de IA avanzada.

El retraso indefinido marcó un cambio sorprendente. Apenas unos meses antes, se informó que DeepSeek estaba acelerando el lanzamiento de R2 para superar a sus rivales. Sin embargo, este impulso chocó con lo que inicialmente se describió como una crisis de dos frentes: la insatisfacción interna del CEO por el desempeño y el cuello de botella paralizante del hardware.

Informes posteriores de agosto confirmaron que el problema central era una falla técnica persistente. La compañía no pudo completar una capacitación exitosa utilizando los chips Ascend nacionales de Huawei, lo que obligó a un difícil giro hacia el hardware probado de Nvidia para la fase de capacitación computacionalmente intensiva.

Este revés resalta el inmenso desafío que enfrentan las empresas chinas al construir una pila de software en hardware nacional emergente y no probado.

La crisis del hardware creó una oportunidad significativa para que los rivales ganaran terreno mientras DeepSeek luchó. El trabajo de la empresa también permanece bajo un intenso escrutinio geopolítico.

Un mordaz informe del Comité de la Cámara de Representantes de EE. UU. de abril calificó a la empresa como una amenaza a la seguridad, y el presidente John Moolenaar declaró: “DeepSeek no es simplemente otra aplicación de IA, es un arma en el arsenal del Partido Comunista Chino…”

La feroz guerra de precios de la IA de China

Junto con la comunicado técnico, DeepSeek anunció un recorte dramático en los precios de sus API en”50%+”. Esta fijación de precios agresiva es un ataque directo a los competidores nacionales que han estado erosionando su participación de mercado. La medida intensifica una feroz guerra de precios que ha sacudido al sector de IA de China.

La compañía está respondiendo a la presión de rivales como Z.ai (anteriormente Zhipu), que lanzó su poderoso modelo GLM-4.5 en julio con una estrategia explícita para rebajar el precio de DeepSeek.

Alibaba también ha adoptado una posición más comercial con su reciente Qwen3-Max de código cerrado. modelo.

A pesar de sus recientes obstáculos de desarrollo, la tecnología de DeepSeek sigue siendo muy buscada. En una victoria significativa, Tesla anunció en agosto que integraría la IA de DeepSeek y Bytedance para sus asistentes de voz para automóviles en el crítico mercado chino, despreciando la IA Grok del propio Elon Musk.

Al abrir un modelo centrado en la eficiencia y al mismo tiempo recortar los precios, DeepSeek está ejecutando una estrategia de múltiples frentes. Su objetivo es volver a involucrar a la comunidad de desarrolladores, recuperar su ventaja competitiva en costos y señalar que su canal de innovación está activo, incluso mientras navega por las duras realidades de la guerra global de chips.

Deepseek libera modelo V3.2 AI con”atención escasa”para aumentar la eficiencia

Published by All Things Windows on October 7, 2025

Un salto experimental con DeepSeek Sparse Attention

Un giro estratégico después del estancamiento del modelo R2

La feroz guerra de precios de la IA de China

IT Info

Operai inicia las aplicaciones SDK, convirtiendo el chatgpt en una plataforma interactiva

IT Info

El alto costo de los chips nvidia de Oracle aprieta sus ganancias de nubes de IA

IT Info

Facebook revisa los carretes con recomendaciones de inteligencia artificial más inteligentes y nuevas funciones sociales

Deepseek libera modelo V3.2 AI con”atención escasa”para aumentar la eficiencia

Published by All Things Windows on October 7, 2025

Un salto experimental con DeepSeek Sparse Attention

Un giro estratégico después del estancamiento del modelo R2

La feroz guerra de precios de la IA de China

Related Posts

IT Info

Operai inicia las aplicaciones SDK, convirtiendo el chatgpt en una plataforma interactiva

IT Info

El alto costo de los chips nvidia de Oracle aprieta sus ganancias de nubes de IA

IT Info

Facebook revisa los carretes con recomendaciones de inteligencia artificial más inteligentes y nuevas funciones sociales