El equipo de IA de Meta se encuentra bajo una intensa presión tras el lanzamiento del modelo R1 de DeepSeek, que ha desafiado a la industria de la IA con su eficiencia y rendimiento sin precedentes.

Publicaciones anónimas en la plataforma de redes profesionales Blind revelan la agitación dentro de las filas de Meta, y los ingenieros describen un esfuerzo frenético para comprender y replicar el éxito de DeepSeek mientras lidiaban con ineficiencias internas y errores de liderazgo.

Blind es una plataforma de redes profesionales anónima donde los empleados pueden compartir información, discutir temas laborales y establecer contactos con pares en la misma o diferentes industrias. Cuenta con un sistema de verificación para garantizar que los usuarios sean empleados reales de las empresas para las que dicen trabajar y es principalmente popular entre los profesionales de la industria tecnológica.

Relacionado: Cómo DeepSeek R1 supera a ChatGPT o1 bajo sanciones, redefiniendo la eficiencia de la IA utilizando solo 2048 GPU

Un empleado anónimo de Meta, publicación bajo el nombre “ngi”, resumió el estado de ánimo dentro de la división GenAI de Meta:

“Comenzó con DeepSeek V3 [un modelo de DeepSeek lanzado en diciembre de 2024], lo que dejó a Llama 4 ya por detrás en los puntos de referencia, para colmo de males estaba la’empresa china desconocida con un presupuesto de formación de 5,5 millones de ingenieros’. moviéndose frenéticamente para diseccionar DeepSeek y copiar todo lo que podamos de él.

Ni siquiera estoy exagerando. A la dirección le preocupa justificar el enorme coste de la organización GenAI. ¿Cómo enfrentarían al liderazgo cuando cada uno de los “líderes” de la organización GenAI gana más de lo que costó entrenar DeepSeek V3 por completo, y tenemos docenas de esos “líderes”? DeepSeek R1 hizo las cosas aún más aterradoras. No puedo revelar información confidencial, pero pronto será pública de todos modos.

Debería haber sido una pequeña organización centrada en la ingeniería, pero como un grupo de personas quería unirse a la captura de impacto e inflar artificialmente la contratación en el org, todos pierden.”

Los comentarios del empleado resaltan la insatisfacción interna con el enfoque de Meta para el desarrollo de IA, que muchos describen como demasiado burocrático, intensivo en recursos e impulsado por métricas superficiales en lugar de innovación significativa.

El lanzamiento de DeepSeek R1 ha expuesto estas deficiencias y ha obligado a uno de los actores más importantes de la industria de la IA a tomar decisiones.

Relacionado: LLaMA AI Under Fire – Lo que Meta no le dice sobre los modelos de “código abierto”

DeepSeek R1 envía ondas de choque al sector tecnológico de EE. UU.

El modelo R1 de DeepSeek, lanzado el 10 de enero de 2025, ha revolucionado el panorama global de la IA al demostrar que se pueden desarrollar modelos de alto rendimiento a una fracción del costo típicamente asociado con este tipo de proyectos.

Utilizando GPU Nvidia H800 (chips de menor calidad restringidos por los controles de exportación de EE. UU.), los ingenieros de DeepSeek entrenaron el modelo por menos de 6 millones de dólares, según un artículo de investigación publicado en diciembre de 2024.

Estos Las GPU, limitadas intencionalmente para cumplir con las sanciones de EE. UU., presentaron desafíos únicos, pero las técnicas de optimización de DeepSeek permitieron al equipo lograr un rendimiento comparable al líder de la industria. modelos.

Las pruebas comparativas de R1 incluyen una puntuación del 97,3 % en MATH-500 y una puntuación del 79,8 % en AIME 2024, lo que lo sitúa entre los sistemas de IA más capaces del mundo.

La eficiencia de DeepSeek R1, que también supera parcialmente al modelo o1 de OpenAI, no sólo ha sacudido la confianza en gigantes tecnológicos estadounidenses como Meta, sino que también ha provocado importantes reacciones en el mercado.

Las acciones de Nvidia cayeron más del 13 % en las operaciones previas a la comercialización tras el lanzamiento del modelo, y los futuros del Nasdaq 100 cayeron más del 5 %. Mientras tanto, DeepSeek ha subido al primer puesto en la App Store de Apple en EE. UU., superando a ChatGPT de OpenAI en descargas.

Los ingenieros de Meta cuestionan la dependencia de la costosa capacitación en IA computacional

Dentro de Meta, los ingenieros han criticado la dependencia de la empresa del poder computacional bruto en lugar de buscar innovación impulsada por la eficiencia.

Un empleado comentó sobre Blind: Muchos de los líderes literalmente no tienen idea (incluso mucha ingeniería) sobre la tecnología subyacente y siguen vendiendo’más GPU=ganar’a los líderes”. Otro compartió frustración con la cultura de”persecución de impacto”, describiéndola como una carrera por ascensos en lugar de un compromiso con avances significativos.

Los esfuerzos de IA de Meta también han enfrentado escrutinio por su falta de agilidad en comparación con los competidores. El modelo R1 de DeepSeek no sólo es rentable sino también de código abierto, lo que permite a los desarrolladores de todo el mundo examinar y desarrollar su arquitectura.

Las discusiones sobre The Blind también revelan preocupaciones más amplias de la industria. Los empleados de Google reconocieron el impacto disruptivo de DeepSeek y uno de ellos señaló: “Es realmente una locura lo que está haciendo DeepSeek. No es sólo Meta, también están encendiendo un fuego bajo el trasero de OpenAI, Google y Anthropic. Lo cual es bueno, estamos viendo en tiempo real cuán efectiva es una competencia abierta para la innovación”.

Este sentimiento refleja el creciente reconocimiento de que las estrategias tradicionales que utilizan muchos recursos pueden ya no garantizar el dominio en el desarrollo de la IA.

Esta transparencia ha recibido elogios de los líderes de la industria, incluido el científico jefe de IA de Meta, Yann LeCun, quien escribió en LinkedIn: “DeepSeek se ha beneficiado de la investigación y el código abierto (por ejemplo, PyTorch y Llama de Meta).. Se les ocurrieron nuevas ideas y las construyeron sobre el trabajo de otras personas”.

Mark Zuckerberg duplica sus inversiones en infraestructura de IA

En marcado contraste, Meta se ha centrado en inversiones en infraestructura a gran escala. El director ejecutivo, Mark Zuckerberg, anunció recientemente planes para implementar más de 1,3 millones de GPU en 2025 e invertir entre 60 y 65 mil millones de dólares en el desarrollo de la IA.

“Este es un esfuerzo enorme y, en los próximos años, impulsará nuestros productos y negocios principales, desbloqueará innovaciones históricas y ampliará el liderazgo tecnológico estadounidense”, dijo Zuckerberg en una declaración pública a principios de este año. Sin embargo, estos planes ahora parecen cada vez más contrarios al enfoque eficiente y centrado en la eficiencia demostrado por DeepSeek.

El ascenso de DeepSeek también ha reavivado los debates sobre las restricciones de exportación de tecnologías relacionadas con la IA a China por parte de Estados Unidos. 2021, la administración Biden ha implementado medidas para limitar el acceso de China a chips avanzados, incluidas las GPU H100 de Nvidia.

Sin embargo, la capacidad de DeepSeek para lograr resultados de clase mundial con hardware restringido subraya las limitaciones de estas políticas mediante el almacenamiento. GPU H800 antes de que las sanciones surtieran pleno efecto y centrándose en la eficiencia, DeepSeek convirtió las limitaciones en ventajas.

El fundador, Liang Wenfeng. Un ex administrador de fondos de cobertura, describió la estrategia de la compañía: “Estimamos que los mejores modelos nacionales y extranjeros pueden tener una brecha de la mitad en la estructura del modelo y la dinámica de capacitación. Por esta razón, necesitamos consumir cuatro veces más potencia informática para lograr el mismo efecto. Lo que tenemos que hacer es reducir continuamente estas brechas”.

Mientras la industria de la IA se enfrenta a las implicaciones del éxito de DeepSeek, Meta se enfrenta a una necesidad urgente de adaptarse. Los empleados de la empresa han dejado claras sus frustraciones y han pedido un cambio hacia estrategias más eficientes impulsadas por la innovación Por ahora, el modelo R1 de DeepSeek representa una poderosa demostración de ingeniería ingeniosa, que remodela la dinámica competitiva del desarrollo global de la IA.

Categories: IT Info