A equipe de AI da

Meta está sob intensa pressão após o lançamento do modelo R1 da Deepseek, que desafiou a indústria da IA ​​com sua eficiência e desempenho sem precedentes.

Postagens anônimas na plataforma de rede profissional cego revelam turbulência nas fileiras de Meta, com engenheiros descrevendo um esforço frenético para entender e replicar o sucesso de Deepseek enquanto luta com ineficiências internas e erros de liderança. é um plataforma de rede profissional anônima Onde os funcionários podem compartilhar informações, discutir questões no local de trabalho e se conectar com colegas no mesmo ou diferentes indústrias. Ele possui um sistema de verificação para garantir que os usuários sejam funcionários reais das empresas para as quais afirmam trabalhar e seja principalmente popular entre os profissionais da indústria de tecnologia.

Relacionado: quão Deepseek R1 ultrapassa o Chatgpt O1 sob sanções, refinamento Um funcionário da Meta Anonymous, postando Sob o nome”NGI,”Resumiu o humor dentro da divisão Genai da Meta:

“Começou com o Deepseek V3 [um modelo Deepseek lançado em dezembro de 2024], que tornou o Llama 4 em relação aos benchmarks. Companhia chinesa com 5 milhões de orçamento de treinamento. A gerência está preocupada em justificar o custo maciço da Genai Org. Como eles enfrentariam a liderança quando todo”líder”da Genai Org estivesse ganhando mais do que o custo para treinar completamente o Deepseek V3, e temos dezenas de”líderes”. Deepseek R1 tornou as coisas ainda mais assustadoras. Não posso revelar informações confidenciais, mas em breve será público de qualquer maneira. Org, todo mundo perde.”

Os comentários do funcionário destacam a insatisfação interna com a abordagem da Meta para o desenvolvimento da IA, que muitos descrevem como excessivamente burocráticos, intensivos em recursos e impulsionados por métricas superficiais, em vez de inovação significativa. P>

O lançamento do Deepseek R1 expôs essas deficiências e forçou um acerto de contas para um dos maiores players da indústria de IA. Não está falando sobre os modelos”de código aberto”

Deepseek R1 envia ondas de choque, embora o setor de tecnologia dos EUA

Modelo R1 de Deepseek, lançado em 10 de janeiro de 2025 , Ele aumentou o cenário global da IA, demonstrando que os modelos de alto desempenho podem ser desenvolvidos por uma fração do custo normalmente associado a esses projetos.

Usando NVIDIA H800 GPUS-chips de nível inferior restringidos pelos controles de exportação dos EUA-os engenheiros da Deekseek treinaram o modelo por menos de US $ 6 milhões, de acordo com um artigo de pesquisa divulgado em dezembro de 2024.

Estes As GPUs, intencionalmente estraciladas em cumprir as sanções dos EUA, apresentaram desafios únicos, mas as técnicas de otimização da Deepseek permitiram à equipe alcançar um desempenho comparável aos modelos líderes do setor.

Os benchmarks da R1 incluem uma pontuação de 97,3% no Math-500 e uma pontuação de 79,8% no Aime 2024, colocando-o entre os sistemas de IA mais capazes do mundo. O R1, que também supera parcialmente o modelo O1 da OpenAI, não apenas abalou a confiança em gigantes da tecnologia dos EUA como a Meta, mas também desencadeou reações significativas no mercado.

As ações da NVIDIA caíram mais de 13% nas negociações de pré-mercado após o lançamento do modelo, e os futuros Nasdaq 100 caíram mais de 5%. Enquanto isso, a Deepseek subiu ao primeiro lugar na App Store da Apple, superando o chatgpt do OpenAI em downloads. Conteúdo/Uploads/2025/01/nvidia-20250127-PRE-TRADING-1024X707.JPG”>

Meta Engenheiros Questões de confiança no treinamento computacional caro

Meta, Meta, Os engenheiros criticaram a dependência da empresa no poder computacional bruto, em vez de buscar inovação orientada por eficiência.

Um funcionário comentou sobre cegos: grande parte da liderança literalmente não tem idéia (mesmo muita engenharia) sobre a tecnologia subjacente e continua vendendo’mais gpus=vitória’para a liderança.”Outro compartilhado compartilhou A frustração com a cultura de”perseguição de impacto”, descrevendo-a como uma raça para promoções, em vez de um compromisso com avanços significativos. O modelo R1 da Deepseek não é apenas econômico, mas também de código aberto, permitindo que desenvolvedores em todo o mundo examinem e desenvolvam sua arquitetura.

As discussões cegas também revelam preocupações mais amplas da indústria. Os funcionários do Google reconheceram o impacto disruptivo da Deepseek, com uma observação: “É realmente uma loucura o que Deepseek está fazendo. Não é apenas a meta, eles também estão iluminando um incêndio sob o Openai, Google e Anthropic. O que é uma coisa boa, estamos vendo em tempo real a eficácia de uma concorrência aberta para a inovação.”

Esse sentimento reflete o crescente reconhecimento de que estratégias tradicionais pesadas de recursos podem não garantir mais domínio no desenvolvimento da IA.

Essa transparência elogiou os líderes da indústria, incluindo o cientista-chefe da Meta, Yann Lecun, que escreveu no LinkedIn: “Deepseek lucrou com a pesquisa aberta e o código aberto (por exemplo, Pytorch e Llama da Meta). , A Meta se concentrou em investimentos de infraestrutura em larga escala. O CEO Mark Zuckerberg anunciou recentemente planos de implantar mais de 1,3 milhão de GPUs em 2025 e investir US $ 60-65 bilhões em desenvolvimento de IA.

“Este é um esforço maciço e, nos próximos anos, ele impulsionará nossos principais produtos e negócios, desbloqueará a inovação histórica e estenderá a liderança tecnológica americana”, disse Zuckerberg em comunicado público no início deste ano. No entanto, esses planos agora aparecem cada vez mais em desacordo com a abordagem enxuta e de eficiência demonstrada por Deepseek A administração de Biden implementou medidas para limitar o acesso da China a chips avançados, incluindo as GPUs H100 da NVIDIA. As sanções entraram em vigor e focando na eficiência, o Deepseek transformou restrições em vantagens. Tenha uma lacuna de uma dobra na estrutura do modelo e na dinâmica do treinamento. Por esse motivo, precisamos consumir quatro vezes mais poder de computação para alcançar o mesmo efeito. O que precisamos fazer é restringir continuamente essas lacunas”. Uma mudança para estratégias mais eficientes e orientadas por inovação.

Categories: IT Info