Il team AI di Meta è sotto forte pressione a seguito del rilascio del modello R1 di DeepSeek, che ha sfidato il settore dell’IA con la sua efficienza e prestazioni senza precedenti.
Post anonimi sulla piattaforma di networking professionale Blind rivelano disordini all’interno dei ranghi di Meta, con ingegneri che descrivono uno sforzo frenetico per comprendere e replicare il successo di DeepSeek mentre sono alle prese con inefficienze interne e passi falsi della leadership.
Blind è una piattaforma di networking professionale anonima in cui i dipendenti possono condividere informazioni, discutere problemi sul posto di lavoro e fare rete con colleghi nello stesso settore o in settori diversi. Dispone di un sistema di verifica per garantire che gli utenti siano effettivi dipendenti delle aziende per cui dichiarano di lavorare ed è popolare principalmente tra i professionisti del settore tecnologico.
Correlato: Come DeepSeek R1 supera ChatGPT o1 sotto sanzioni, ridefinendo l’efficienza dell’intelligenza artificiale utilizzando solo 2.048 GPU
Un dipendente Meta anonimo, pubblicando sotto il nome”ngi,”ha riassunto lo stato d’animo all’interno della divisione GenAI di Meta:
“Tutto è iniziato con DeepSeek V3 [un modello DeepSeek rilasciato nel dicembre 2024], che ha reso Llama 4 già indietro nei benchmark. Ad aggiungere la beffa al danno è stata la”sconosciuta azienda cinese con un budget di formazione di 5,5 milioni di ingegneri”. muovendoci freneticamente per analizzare DeepSeek e copiare qualsiasi cosa possiamo da esso
Non sto nemmeno esagerando. Il management è preoccupato di giustificare l’enorme costo dell’organizzazione GenAI. Come affronterebbero la leadership quando ogni singolo”leader”dell’organizzazione GenAI guadagna più di quanto costa addestrare interamente DeepSeek V3 e abbiamo dozzine di tali”leader”. DeepSeek R1 ha reso le cose ancora più spaventose. Non posso rivelare informazioni riservate, ma saranno comunque presto pubbliche.
Avrebbe dovuto essere una piccola organizzazione focalizzata sull’ingegneria, ma poiché un gruppo di persone voleva unirsi all’impact grab e gonfiare artificialmente le assunzioni nel org, tutti perdono.”
I commenti del dipendente evidenziano l’insoddisfazione interna per l’approccio di Meta allo sviluppo dell’intelligenza artificiale, che molti descrivono come eccessivamente burocratico, ad alta intensità di risorse e guidato da parametri superficiali piuttosto che da innovazioni significative.
Il rilascio di DeepSeek R1 ha messo in luce queste carenze e ha costretto uno dei più grandi attori del settore dell’intelligenza artificiale a fare i conti.
Correlato: LLaMA AI Under Fire – Ciò che Meta non ti dice sui modelli”open source”
DeepSeek R1 manda onde d’urto nel settore tecnologico statunitense
DeepSeek’s Il modello R1, rilasciato il 10 gennaio 2025, ha stravolto il panorama globale dell’intelligenza artificiale dimostrando che è possibile sviluppare modelli ad alte prestazioni a una frazione del costo tipicamente associato a tali progetti.
Utilizzando le GPU Nvidia H800, chip di qualità inferiore limitati dai controlli sulle esportazioni statunitensi, gli ingegneri di DeepSeek hanno addestrato il modello per meno di 6 milioni di dollari, secondo un documento di ricerca pubblicato nel dicembre 2024.
Questi Le GPU, intenzionalmente limitate per conformarsi alle sanzioni statunitensi, hanno presentato sfide uniche, ma le tecniche di ottimizzazione di DeepSeek hanno consentito al team di ottenere prestazioni paragonabili a modelli leader del settore.
I benchmark di R1 includono un punteggio del 97,3% su MATH-500 e un punteggio del 79,8% su AIME 2024, posizionandolo tra i sistemi di intelligenza artificiale più capaci al mondo.
L’efficienza di DeepSeek R1, che supera parzialmente anche il modello o1 di OpenAI, non solo ha scosso la fiducia nei giganti tecnologici statunitensi come Meta, ma ha anche innescato significative reazioni del mercato.
Le azioni di Nvidia sono scese di oltre il 13% nelle negoziazioni pre-mercato dopo il rilascio del modello, e i futures Nasdaq 100 sono crollati di oltre il 5%. Nel frattempo, DeepSeek è salito al primo posto nell’App Store statunitense di Apple, superando ChatGPT di OpenAI nei download.
Gli ingegneri Meta mettono in dubbio la dipendenza da costosi corsi di formazione sull’intelligenza artificiale
All’interno di Meta, gli ingegneri hanno criticato la dipendenza dell’azienda dalla potenza computazionale bruta piuttosto che perseguire un’innovazione guidata dall’efficienza.
Un dipendente ha osservato su Blind: Gran parte dei dirigenti non ha letteralmente alcuna idea (neppure molta ingegneria) della tecnologia sottostante e continuano a vendere”più GPU=vittoria”alla leadership.”Un altro ha condiviso frustrazione nei confronti della cultura della”caccia all’impatto”, descrivendola come una corsa per le promozioni piuttosto che un impegno per progressi significativi.
Gli sforzi di Meta nel campo dell’intelligenza artificiale sono stati anche esaminati attentamente per la loro mancanza di agilità rispetto alla concorrenza. Il modello R1 di DeepSeek non è solo conveniente ma anche open source, consentendo agli sviluppatori di tutto il mondo di esaminare e sviluppare la sua architettura.
Le discussioni sui Blind rivelano anche preoccupazioni più ampie del settore. I dipendenti di Google hanno riconosciuto l’impatto dirompente di DeepSeek, con una nota: “È davvero pazzesco quello che sta facendo DeepSeek. Non si tratta solo di Meta, stanno accendendo il fuoco anche sotto OpenAI, Google e Anthropic. Il che è positivo, stiamo vedendo in tempo reale quanto sia efficace una competizione aperta per l’innovazione.”
Questo sentimento riflette il crescente riconoscimento che le strategie tradizionali ad alto consumo di risorse potrebbero non garantire più il dominio nello sviluppo dell’intelligenza artificiale.
Questa trasparenza ha attirato elogi da parte dei leader del settore, tra cui il capo scienziato dell’intelligenza artificiale di Meta, Yann LeCun, che ha scritto su LinkedIn:”DeepSeek ha tratto profitto dalla ricerca aperta e dall’open source (ad esempio, PyTorch e Llama di Meta). Hanno avuto nuove idee e le hanno sviluppate basandosi sul lavoro di altre persone.”
Mark Zuckerberg raddoppia gli investimenti nelle infrastrutture IA
In netto contrasto, Meta si è concentrata su investimenti infrastrutturali su larga scala. Il CEO Mark Zuckerberg ha recentemente annunciato l’intenzione di implementare oltre 1,3 milioni di GPU nel 2025 e di investire 60-65 miliardi di dollari nello sviluppo dell’intelligenza artificiale.
“Si tratta di uno sforzo enorme che, nei prossimi anni, darà impulso ai nostri prodotti e alle nostre attività principali, sbloccherà innovazioni storiche ed estenderà la leadership tecnologica americana”, ha affermato Zuckerberg in una dichiarazione pubblica all’inizio di quest’anno. Tuttavia, questi piani ora appaiono sempre più in contrasto con l’approccio snello e incentrato sull’efficienza dimostrato da DeepSeek.
L’ascesa di DeepSeek ha anche riacceso i dibattiti sulle restrizioni all’esportazione degli Stati Uniti sulle tecnologie legate all’intelligenza artificiale verso la Cina Nel 2021, l’amministrazione Biden ha implementato misure per limitare l’accesso della Cina ai chip avanzati, comprese le GPU H100 di Nvidia.
Tuttavia, la capacità di DeepSeek di ottenere risultati di livello mondiale con hardware limitato sottolinea i limiti di queste politiche accumulando scorte Le GPU H800 prima che le sanzioni entrassero in vigore e concentrandosi sull’efficienza, DeepSeek ha trasformato i vincoli in vantaggi
Il fondatore Liang Wenfeng, ex manager di hedge fund, ha descritto la strategia dell’azienda: “Stimiamo che i migliori modelli nazionali ed esteri possano presentare un divario pari a una volta nella struttura del modello e nelle dinamiche di formazione. Per questo motivo, per ottenere lo stesso effetto, dobbiamo consumare quattro volte più potenza di calcolo. Ciò che dobbiamo fare è ridurre continuamente queste lacune”.
Mentre il settore dell’intelligenza artificiale è alle prese con le implicazioni del successo di DeepSeek, Meta deve affrontare l’urgente necessità di adattarsi. I dipendenti dell’azienda hanno reso chiare le loro frustrazioni, chiedendo uno spostamento verso strategie più efficienti e guidate dall’innovazione. Per ora, il modello R1 di DeepSeek rappresenta una potente dimostrazione di ingegneria intraprendente, rimodellando le dinamiche competitive dello sviluppo globale dell’intelligenza artificiale.