DeepSeek, una startup china de inteligencia artificial, ocupó el primer lugar en la App Store de Apple en EE. UU. el fin de semana pasado, superando a ChatGPT de OpenAI en descargas.

El hito se produce después del lanzamiento el 20 de enero del modelo de razonamiento insignia de DeepSeek, R1, que rápidamente ganó reconocimiento por su capacidad para rivalizar con sistemas avanzados de IA mientras opera con una fracción de los recursos normalmente necesarios.

Fuente: Sensor Tower

DeepSeek R1 proporciona un rendimiento de vanguardia, y al mismo tiempo ser censurado según las reglas del PCCh.

El rápido ascenso de la aplicación impulsada por R1 refleja la ingeniería innovadora y el uso estratégico de DeepSeek de las GPU Nvidia H800, cuya exportación a China está restringida debido a las sanciones de Estados Unidos.

Relacionado: Por qué las sanciones estadounidenses pueden tener dificultades para frenar el crecimiento tecnológico de China

Al desarrollar métodos de capacitación eficientes, la empresa con sede en Hangzhou ha demostrado que el avance de la IA es posible incluso bajo limitaciones geopolíticas. Este desarrollo desafía la percepción del dominio estadounidense en inteligencia artificial y plantea dudas sobre la efectividad de las restricciones a las exportaciones destinadas a frenar las capacidades tecnológicas de China.

Construcción de IA bajo restricciones: un enfoque ingenioso

El modelo R1 de DeepSeek se entrenó utilizando solo 2048 GPU Nvidia H800 a un costo total de menos de $6 millones, según un artículo de investigación que la compañía publicó en Diciembre de 2024.

Estas GPU son versiones limitadas intencionalmente de los chips H100 utilizados por empresas estadounidenses como OpenAI y Meta. A pesar de las limitaciones del hardware, los ingenieros de DeepSeek desarrollaron técnicas de optimización novedosas que permitieron a R1 lograr resultados comparables a los modelos entrenados en una infraestructura mucho más poderosa.

El fundador Liang Wenfeng, ex administrador de fondos de cobertura, explicó el enfoque de la compañía durante una conferencia. entrevista con 36Kr.”Necesitamos consumir cuatro veces más potencia informática para lograr el mismo efecto”,

Relacionado: DeepSeek AI Open Sources VL2 Series of Vision Language Models

“Lo que tenemos que hacer es reducir continuamente estas brechas”, dijo Liang. La previsión de Liang al almacenar GPU de Nvidia antes de que entraran en vigor las restricciones de EE. UU. fue un factor crítico en la capacidad de la empresa para innovar en circunstancias difíciles.

Los ingenieros de DeepSeek también se centraron en reducir el uso de memoria y la sobrecarga computacional, lo que permitió una alta precisión a pesar de las limitaciones de hardware.. Dimitris Papailiopoulos, investigador principal del laboratorio AI Frontiers de Microsoft, destacó la eficiencia del diseño de R1.

“Buscaron respuestas precisas en lugar de detallar cada paso lógico, reduciendo significativamente el tiempo de procesamiento y manteniendo un alto nivel de efectividad”, dijo a MIT Technology Review.

Rendimiento Puntos de referencia y reconocimiento de la industria

El desempeño de R1 ha sido particularmente sólido en los puntos de referencia técnicos, obteniendo puntuaciones del 97,3 % en MATH-500 y del 79,8 % en AIME. 2024. Estos resultados colocan a R1 junto a la serie o1 de OpenAI, lo que demuestra que el modelo eficiente en recursos de DeepSeek puede competir con los líderes de la industria.

Más allá de su modelo insignia, DeepSeek también ha lanzado versiones más pequeñas de R1 capaces de ejecutarse en dispositivos de consumo. hardware de calidad. Esta accesibilidad ha ampliado el atractivo del modelo entre desarrolladores, educadores y aficionados. En las redes sociales, los usuarios han compartido ejemplos de R1 manejando tareas complejas como desarrollo web, codificación y matemáticas avanzadas. resolución de problemas.

Relacionado: Mistral AI presenta Pixtral 12B para procesamiento de texto e imágenes

Los logros de DeepSeek han recibido elogios de figuras prominentes en el campo de la IA. Yann LeCun, científico jefe de IA de Meta, enfatizó el papel de la colaboración de código abierto en el éxito de DeepSeek. ““DeepSeek se ha beneficiado de la investigación abierta y del código abierto (por ejemplo, PyTorch y Llama de Meta). Se les ocurrieron nuevas ideas y las construyeron sobre el trabajo de otras personas.”escribió LeCun en LinkedIn. Debido a que su trabajo está publicado y es de código abierto, todos pueden beneficiarse de él. Ese es el poder de la investigación abierta y del código abierto.”

De manera similar, Marc Andreessen, cofundador de Andreessen Horowitz, describió R1 como”uno de los avances más sorprendentes que he visto”. Estos respaldos resaltan el impacto global del ingenioso enfoque de DeepSeek hacia la IA. desarrollo.

Ethos de asequibilidad y código abierto

A diferencia de las plataformas propietarias como ChatGPT de OpenAI, DeepSeek ha adoptado una filosofía de código abierto. Los pesos, las recetas de entrenamiento y la documentación del modelo R1 están disponibles públicamente, lo que permite a los desarrolladores de todo el mundo replicar o desarrollar su trabajo. Esta transparencia ha diferenciado a DeepSeek en una industria que a menudo se caracteriza por el secreto.

La asequibilidad también ha sido un factor clave en la popularidad de R1. La aplicación es de uso gratuito y el acceso a la API tiene un precio significativamente más bajo que las ofertas de la competencia. Estas estrategias de precios, combinadas con las sólidas capacidades del modelo, han hecho de DeepSeek una opción atractiva tanto para individuos como para empresas.

Relacionado: LLaMA AI Under Fire: lo que Meta no dice Usted acerca de los modelos de “código abierto”

Implicaciones geopolíticas del éxito de DeepSeek

El ascenso de DeepSeek se produce en un momento de mayor Tensiones geopolíticas entre Estados Unidos y China, particularmente en el campo de la inteligencia artificial.

Desde 2021, la administración Biden ha ampliado las restricciones a la exportación de chips avanzados a China, con el objetivo de limitar la capacidad de desarrollo del país. Sin embargo, los logros de DeepSeek sugieren que tales medidas pueden no impedir completamente la innovación.

El éxito de la compañía ha provocado debates dentro de los círculos tecnológicos estadounidenses sobre las consecuencias no deseadas de los controles de exportación. Algunos ejecutivos sostienen que estas restricciones pueden estar impulsando la innovación ingeniosa entre las empresas chinas. La estrategia de Liang de acumular GPU y centrarse en la eficiencia ha demostrado que las limitaciones pueden estimular la resolución creativa de problemas en lugar de sofocarla por completo.

Relacionado: Las nuevas normas de exportación de chips de IA de EE. UU. enfrentan una reacción negativa de la industria por Nvidia y otros

Un movimiento más amplio en la IA china

El enfoque de código abierto de DeepSeek se alinea con una tendencia más amplia en El sector de la IA de China. Otras empresas, incluidas Alibaba Cloud y 01.AI de Kai-Fu Lee, también han dado prioridad a las iniciativas de código abierto en los últimos años. Liang ha descrito la necesidad de abordar lo que él llama una”brecha de eficiencia”entre las empresas de IA chinas y occidentales, explicando que las empresas locales a menudo requieren el doble de recursos para lograr resultados comparables.

Relacionado: Alibaba Qwen lanza el modelo de IA de razonamiento multimodal QVQ-72B-Preview

En julio de 2024, Liang declaró: “Estimamos que los mejores modelos nacionales y extranjeros pueden tener una brecha de una sola vez en la estructura del modelo y capacitación Solo por esta razón, necesitamos consumir el doble de potencia informática para lograr el mismo efecto. Además, también puede haber una brecha del doble en la eficiencia de los datos, es decir, necesitamos consumir el doble de entrenamiento. datos y potencia informática para lograr el mismo efecto. Juntos, necesitamos consumir cuatro veces más potencia informática. Lo que debemos hacer es reducir continuamente estas brechas”.

Su liderazgo le ha valido el reconocimiento de DeepSeek tanto dentro de China como a nivel internacional. En 2024, fue invitado a reuniones de alto nivel con funcionarios chinos para discutir estrategias para mejorar las capacidades de IA del país.

Desafíos y oportunidades futuros

As DeepSeek continúa perfeccionando sus modelos, la empresa enfrenta tanto oportunidades como desafíos. Si bien sus logros han demostrado la viabilidad de la IA que utiliza eficientemente los recursos, persisten dudas sobre si dichos enfoques pueden escalar para competir con las inversiones masivas de gigantes tecnológicos como OpenAI y Meta.

En una publicación posterior al lanzamiento de DeepSeek R1 , Mark Zuckerberg, director ejecutivo de Meta, destacó la importancia de las inversiones a gran escala en infraestructura de IA y afirmó: “Este será un año decisivo para la IA. En 2025, espero que Meta AI sea el asistente líder que atienda a más de mil millones de personas, Llama 4 se convierta en el modelo líder de última generación y crearemos un ingeniero de IA que comenzará a contribuir con cantidades cada vez mayores de código. a nuestros esfuerzos de I+D. Para impulsar esto, Meta está construyendo un centro de datos de más de 2 GW que es tan grande que cubriría una parte importante de Manhattan.

Poneremos en línea ~1GW de computación en 2025 y finalizaremos el año con más de 1,3 millones de GPU. Estamos planeando invertir entre 60.000 y 65.000 millones de dólares en gastos de capital este año y, al mismo tiempo, aumentar significativamente nuestros equipos de IA, y tenemos el capital para seguir invirtiendo en los años venideros. Este es un esfuerzo enorme y en los próximos años impulsará nuestros productos y negocios principales, desbloqueará innovaciones históricas y ampliará el liderazgo tecnológico estadounidense. ¡Vamos a construir!”

Por ahora, el éxito de DeepSeek con R1 ha demostrado que la innovación no es dominio exclusivo de los actores mejor financiados. Al priorizar la eficiencia, la transparencia y la accesibilidad, la empresa ha hecho un impacto duradero en la industria global de la IA.

Categories: IT Info