A Meta Platforms lançou oficialmente o Llama 3.3 70B, uma nova adição à sua família de modelos de linguagem grande Llama (LLMs), que visa equilibrar eficiência computacional com alto desempenho.
O modelo oferece funcionalidade comparável a seu antecessor, Llama 3.1 405B, mas consegue isso enquanto reduz significativamente os custos de infraestrutura. Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, destacou a inovação em uma postagem no X.
Apresentamos o Llama 3.3, um novo modelo 70B que oferece o desempenho do nosso modelo 405B mas é mais fácil e mais econômico de operar. Ao aproveitar os mais recentes avanços em técnicas pós-treinamento, incluindo otimização de preferências on-line, este modelo melhora o desempenho principal em… pic.twitter.com/6oQ7b3Yuzc
![]()
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) 6 de dezembro de 2024
Projetado para tarefas como seguir instruções , processamento de linguagem natural e raciocínio matemático, Llama-3.3-70B-Instruct é agora disponível para download em plataformas como Hugging Face e site oficial do Meta.
No entanto, seus termos de licenciamento exigem permissão especial para plataformas com mais de 700 milhões de usuários mensais, levantando questões sobre sua abertura.
O modelo incorpora técnicas avançadas, como ajuste fino supervisionado e aprendizagem por reforço a partir de feedback humano (RLHF). Esses métodos refinam seus recursos, tornando o Llama 3.3 adaptável a diversas aplicações comerciais e de pesquisa, mantendo a eficiência de custos.
Relacionado: OpenAI lança estrutura de ajuste fino de reforço para personalização de IA
Equilibrando acessibilidade e princípios de código aberto
A Meta comercializa seus modelos Llama como código aberto, mas os críticos argumentam que o licenciamento restritivo mina essa afirmação. A Open Source Initiative (OSI) introduziu recentemente uma definição de IA de código aberto (OSAID) para esclarecer os padrões, exigindo que os modelos sejam totalmente acessíveis e modificáveis. No entanto, os modelos Llama enquadram-se no que alguns especialistas descrevem como sistemas de “peso aberto”, oferecendo acesso a parâmetros treinados, mas limitando as aplicações comerciais.
Ali Farhadi, do Allen Institute for AI, criticou a abordagem. Os sistemas de IA devem ir além do fornecimento de acesso parcial a parâmetros treinados e, em vez disso, oferecer total transparência em seus processos de construção e treinamento. Este debate reflete tensões mais amplas na indústria de IA sobre o equilíbrio entre inovação e acessibilidade.
Escalonamento da infraestrutura para lhama 4
Enquanto o Llama 3.3 enfatiza a eficiência, a Meta está se preparando para dimensionar drasticamente sua infraestrutura para o próximo Llama 4. Durante a teleconferência de resultados do terceiro trimestre da Meta, o CEO Mark Zuckerberg revelou que a empresa está treinando o Llama 4 em um cluster de mais de 100.000 GPUs Nvidia H100 Isso marca um salto significativo em relação às 25.000 GPUs usadas para o Llama 3 e reflete. A ambição da Meta de permanecer na vanguarda do desenvolvimento de IA generativa.
O consumo de energia do cluster GPU é notável, estimado em 150 megawatts – cinco vezes a energia necessária para El Capitan, o maior supercomputador dos Estados Unidos. Apesar das preocupações com a sustentabilidade ambiental, Zuckerberg enfatizou a necessidade de tais investimentos, afirmando que o Llama 4 exigiria dez vezes o poder de computação do seu antecessor.
Relacionado: Meta Uses OpenAI’s GPT-4, pois os próprios modelos de IA do Llama não são bons o suficiente
A enorme escala da infraestrutura do Llama 4 destaca a abordagem dupla da Meta: criar modelos altamente eficientes para diversos casos de uso e, ao mesmo tempo, investir pesadamente em IA generativa em grande escala sistemas.
No entanto, a Meta não está sozinha, ampliando fortemente sua infraestrutura de treinamento em IA. O xAI de Elon Musk está atualmente dobrando a capacidade do Colossus, seu supercomputador baseado em Memphis, para mais de 1 milhão de GPUs Nvidia. E a Amazon anunciou recentemente seus planos para seu Ultracluster, construído com chips personalizados da Amazon e definido para se tornar um dos supercomputadores de IA mais poderosos do mundo até hoje.
Modelos compactos impulsionam a expansão de IA Edge da Meta
Em outubro, a Meta expandiu sua série Llama 3.2 com modelos quantizados otimizados para computação de ponta e dispositivos móveis. Os modelos menores de parâmetros 1B e 3B foram projetados para operar eficientemente em dispositivos com recursos limitados, graças a tecnologias como Quantization-Aware Training ( QAT) e Adaptadores de baixa classificação (LoRA).
Esses métodos reduzem o os requisitos de memória dos modelos em mais de 40% e aceleram as velocidades de processamento em até quatro vezes.
As parcerias da Meta com a Qualcomm e a MediaTek trazem esses recursos para dispositivos Android, demonstrando suas aplicações práticas. Testes em dispositivos como o OnePlus 12 revelaram melhorias na latência e redução no consumo de energia, alinhando-se à crescente demanda da indústria por soluções de IA no dispositivo que se preocupam com a privacidade.
Quantização, um processo que reduz a precisão de pesos e ativações em modelos de IA, permite implantação eficiente em dispositivos de baixo consumo de energia sem comprometer a qualidade. A Meta também introduziu o SpinQuant, um método de quantização secundária que otimiza a implantação sem exigir muitos dados de treinamento.
Estratégia dupla da Meta para liderança em IA
O lançamento simultâneo do Llama 3.3 e a preparação para o Llama 4 refletem a estratégia dupla da Meta de melhorar a escalabilidade e, ao mesmo tempo, atender a casos de uso móvel e de ponta. Ao investir em enormes clusters de GPU e em modelos compactos e eficientes, a Meta está se posicionando como líder em inovação generativa de IA.
No entanto, desafios como o escrutínio regulatório, preocupações ambientais e debates sobre princípios de código aberto continuar a moldar a trajetória da empresa.