Mesmo meta plataformas não é imune aos custos impressionantes da corrida de IA. The company spent parts of the last year approaching competitors, including Microsoft, Amazon, and others, seeking financial help to train its flagship Llama large language models, according to four individuals briefed on the discussions reported by The Informações .

Essas aberturas, supostamente apelidadas de”consórcio de llama”, foram impulsionadas pela apreensão da meta sobre os recursos crescentes necessários para seu desenvolvimento de inteligência artificial, disseram duas pessoas. Como adoçante, a Meta aparentemente discutiu dando a potenciais apoiadores financeiros uma opinião sobre o desenvolvimento futuro da LLAMA. Ainda assim, a tentativa revela a intensa carga financeira envolvida na construção de sistemas líderes de IA, pressionando mesmo as empresas com os bolsos profundos da Meta e sinalizando as altas riscos na IA generativa. 4-Os mais recentes modelos da Meta

A busca da Meta por parceiros de financiamento lança seu recente anúncio de llama 4 sob uma nova luz. Essa versão introduziu o LLAMA 4 Scout (parâmetros totais de 109b, 17b ativo) destinado ao uso de GPU único com uma janela de contexto de 10 milhões de token excepcionalmente grande-capaz de processar aproximadamente 7,5 milhões de palavras de uma só vez. Ambos empregam uma arquitetura de mistura de especialistas (MOE), uma técnica usando sub-rede especializada (‘especialistas’), onde apenas os necessários são ativados por tarefa, visando maior eficiência durante a operação em comparação com modelos densos onde todos os parâmetros são sempre usados ​​usando imagens.

A base estes é o gigante Llama 4 ainda não lançado, um modelo de parâmetro de 2 trilhões usado internamente para destilação (ensinando modelos menores), que exigia treinamento em até 32.000 GPUs. Meta empregou técnicas como a precisão do FP8-um formato de número de precisão mais baixa que acelera os cálculos-e novos componentes arquitetônicos, como incorporações posicionais rotativas intercaladas (IROPE) para lidar com sequências longas e efetivamente. exige enorme poder computacional e esforço de engenharia, explicando diretamente a necessidade potencial de investimento compartilhado. Embora o MOE ofereça uma potencial eficiência de inferência, o custo de treinamento inicial continua sendo um fator significativo. A empresa declarou publicamente que seu objetivo era combater preconceitos políticos percebidos nos LLMs, observando: “É sabido que todos os LLMs principais tiveram problemas com viés-especificamente, eles historicamente se inclinaram para a esquerda quando se trata de tópicos políticos e sociais. Além de implantar ferramentas de segurança como a Llama Guard e o sistema de términa vermelha de cabra-um método de teste adversário para encontrar vulnerabilidades. Essas camadas de ajuste fino e de segurança adicionam uma sobrecarga adicional de desenvolvimento. Os processos ativos, incluindo um envolvendo o comediante Sarah Silverman, alegam que a empresa treinou modelos de llama em conjuntos de dados enormes de livros pirateados provenientes de bibliotecas como Libgen via Bittorrent File-compartilhando. Os documentos judiciais revelaram apreensão interna, com um engenheiro citado como tendo dito:”torrentando de um laptop corporativo [de propriedade meta] não parece certo”. Tais controvérsias podem representar um motorista substancial, se menos visível, das despesas gerais de desenvolvimento da IA. Os modelos foram integrados aos recursos da Meta AI no WhatsApp, Instagram e Facebook logo após o lançamento. They were also made available for download and via cloud partners – including Amazon SageMaker JumpStart and Microsoft’s Azure AI Foundry and Azure Databricks-Embora notavelmente sob uma licença comercial personalizada, não uma de código aberto típico. Essa estratégia de liberação controlada mantém a meta envolvida na implantação da LLAMA, equilibrando a abertura com interesses comerciais. Isso impede que os usuários do iPhone usem as ferramentas de escrita de IA da Apple ou o Genmoji no Facebook ou Instagram, empurrando-os para as alternativas baseadas em lhama da Meta. A abordagem da Meta também difere do modelo de mais focado na privacidade da Apple, geralmente no dispositivo, uma distinção destacada pela discussão pública da Meta sobre a inclinação do lhama 4 e sua controversa ressonância simultânea e controversa de verificação de terceiros na verificação de fatos nos EUA a partir de 2025 de janeiro. href=”https://www.llama.com/events/llamacon/signup/”Target=”_ Blank”> Evento Llamacon Agressado para 29 de abril, oferecendo potencialmente atualizações sobre o modelo massivo de gigante ou o próximo LLAMA 4-V Vision Model.

Categories: IT Info