La startup de IA china Deepseek ha lanzado una actualización notable a su modelo de inteligencia artificial R1, designado Deepseek-R1-0528, mejorando significativamente sus capacidades y posicionándolo más cerca de los sistemas globales líderes. A pesar de las ganancias de rendimiento notables, la compañía considera que el nuevo modelo es una”actualización menor”.
La compañía dice que la nueva versión ofrece un rendimiento sustancialmente mejorado en razonamiento, matemáticas y programación, al tiempo que reduce la generación de información incorrecta o”alucinaciones”. Esto es significativo para los usuarios y la industria más amplia, destacando el rápido progreso de las empresas chinas de IA y prometiendo herramientas de IA más potentes y confiables, intensificando así la competencia global de IA.
Deepseek en blanco”<Último ÚLTIMO > Para los usuarios, esto se traduce en expectativas de resultados más precisos y contextualmente relevantes, especialmente al abordar tareas complejas. La compañía también enfatizó que la versión R1-0528 ofrece un soporte mejorado para las llamadas de funciones, habilitando una mejor interacción con herramientas externas y una experiencia mejorada para la”codificación de vibra”, lo que sugiere una generación de código más intuitiva, como se indica en su anuncio. La última itición de DeepSeek R1 continúa utilizando una mezcla de inexpertos (MOE), con una arquitectura aproximadamente 670 de 670. pero activa solo unos 37 mil millones por token durante la inferencia. Deepseek cuantifica el salto de rendimiento con resultados de referencia específicos. En particular, en la prueba AIME 2025, una competencia matemática desafiante, la precisión del modelo aumentó del 70% al 87.5%. Esto se atribuye a una mayor profundidad de razonamiento; El nuevo modelo promedió 23,000 tokens, unidades de texto procesadas, por pregunta en esta prueba, un aumento significativo de los 12,000 tokens anteriores. Further demonstrating its prowess, on the LiveCodeBench leaderboard, maintained by researchers from UC Berkeley, MIT, and Cornell, the new DeepSeek R1-0528 outperformed xAI’s Grok-3-mini and Alibaba’s Qwen-3. A key improvement highlighted by DeepSeek is its “reduced hallucination rate,”a critical step forward as AI models generating plausible Pero la información falsa sigue siendo un desafío persistente. Developers testing the model have also observed that R1-0528 engages in @longer thinking sessions, Según se informa, pasar entre 30 y 60 minutos en tareas individuales cuando sea necesario,”indicando un cambio hacia respuestas más exhaustivas. La longitud de generación máxima para el modelo es una sustancial de 64,000 tokens. Los usuarios pueden interactuar con el modelo mejorado a través de Sitio web de chat oficial de Deepseek Al habilitar la opción”DeepThink”para los desarrolladores, una API compatible de OpenAI está disponible a través de Deepeek. El modelo R1-0528 también se puede acceder con una API gratuita a través de OpenRouter. Comunidad de código abierto, Deepseek también ha lanzado Deepseek-R1-0528-QWen3-8b. Licenciado bajo Licencia de MIT , permitiendo que el uso comercial y la destilación también respondan rápidamente, con la AI sin dejar anunciando en a publicación de blog Que cuantificaron con éxito el modelo R1 671b-parameter de Deepseek de DeepSeek desde 720GB hasta 185GB, una reducción de 75%, lo que hace que sea más accesible para el uso de la funcionalidad sólida y la sólida capacidades mejoradas y un pensamiento más profundo
Disponibilidad, código abierto y recepción de la comunidad
Strong>
Strong. Realidades geopolíticas
Si bien el abrazo de la publicación de Deepseek detalla una actualización significativa, algunos caracterizaron la versión en el expreso Tribune , que también mencionó un representante de Deepseek que describe de manera similar en un grupo de wechat privado. Para su modelo de razonamiento R2 de próxima generación, el lanzamiento se aceleró para competir mejor con los laboratorios de IA globales. ha contribuido constantemente a la IA de código abierto, las herramientas de lanzamiento de FlashMLA y el modelo DeepSeek-Prover-V2-671B para el teorema matemático. Deepseek no era solo otra aplicación de IA, sino”un arma en el arsenal del Partido Comunista Chino, diseñado para espiar a los estadounidenses, robar nuestra tecnología y subvertir la ley de los Estados Unidos”.
En respuesta a tales presiones y los controles estadounidenses que limitan el acceso a la GPU de NVIDIA de primer nivel, los modelos profundos se han centrado estratégicamente en la eficiencia computacional. 2024.