Kahit na ang mga platform ng meta ay hindi immune sa mga nakakapangit na gastos ng lahi ng AI. Ang kumpanya ay gumugol ng mga bahagi ng nakaraang taon na papalapit sa mga kakumpitensya, kabilang ang Microsoft, Amazon, at iba pa, na humihingi ng tulong pinansiyal upang sanayin ang punong barko nito na malalaking mga modelo ng wika, ayon sa apat na indibidwal na nagbigay ng talakayan sa mga talakayan Impormasyon . Bilang isang pampatamis, tila tinalakay ni Meta na nagbibigay ng mga potensyal na tagasuporta sa pananalapi sa pag-unlad ng tampok na tampok ng llama. Gayunpaman, ang pagtatangka ay nagpapakita ng matinding pasanin sa pananalapi na kasangkot sa pagbuo ng nangungunang mga sistema ng AI, na inilalagay ang presyon kahit sa mga kumpanya na may malalim na bulsa ng Meta at pag-sign ng mataas na pusta sa generative ai. Pinakabagong Mga Modelo ng Meta Ang paglabas na iyon ay ipinakilala ang llama 4 na scout (109b kabuuang mga parameter, 17b aktibo) na naglalayong gamitin ang single-gpu na may isang pambihirang malaking 10 milyong window ng token na konteksto-na may kakayahang magproseso ng halos 7.5 milyong mga salita nang sabay-sabay. Parehong gumamit ng isang arkitektura ng halo-ng-eksperto (MOE), isang pamamaraan na gumagamit ng dalubhasang mga sub-network (‘eksperto’) kung saan ang mga kinakailangan lamang ang isinaaktibo sa bawat gawain, na naglalayong higit na kahusayan sa panahon ng operasyon kumpara sa mga siksik na modelo kung saan ang lahat ng mga parameter ay palaging ginagamit.

Ang pagsuporta sa mga ito ay ang hindi pa-unreleased llama 4 na behemoth, isang modelo ng 2-trilyong parameter na ginamit sa loob para sa distillation (pagtuturo ng mas maliit na mga modelo), na nangangailangan ng pagsasanay sa hanggang sa 32,000 GPU. Ang mga pamamaraan na nagtatrabaho sa meta tulad ng FP8 Precision-isang format na numero ng mas mababang katumpakan na nagpapabilis ng mga kalkulasyon-at mga nobelang arkitektura Ang mga benchmark-hindi sinasadyang hinihiling ng napakalaking computational power at engineering na pagsisikap, na direktang nagpapaliwanag ng potensyal na pangangailangan para sa ibinahaging pamumuhunan. Habang ang MOE ay nag-aalok ng potensyal na kahusayan ng pag-iintindi, ang pagtaas ng gastos sa pagsasanay ay nananatiling isang makabuluhang kadahilanan. Ang kumpanya sa publiko ay nagsabi ng layunin nito ay ang pagbilang ng mga napansin na mga biases na pampulitika sa mga LLM, na tandaan,”Kilalang-kilala na ang lahat ng nangungunang mga LLM ay may mga isyu sa bias-partikular, ang kasaysayan nila ay nakasandal sa kaliwa pagdating sa debate na pampulitika at sosyal na mga paksa… ito ay dahil sa mga uri ng data ng pagsasanay na magagamit sa internet.”Sa tabi ng pag-aalis ng mga tool sa kaligtasan tulad ng Llama Guard at ang Goat Red-Teaming System-isang paraan ng pagsubok sa kalaban upang makahanap ng mga kahinaan. Ang mga fine-tuning at safety layer na ito ay nagdaragdag ng karagdagang pag-unlad sa itaas. Ang mga aktibong demanda, kabilang ang isa na kinasasangkutan ng komedyanteng si Sarah Silverman, ay sinasabing ang kumpanya ay sinanay ang mga modelo ng LLAMA sa napakalaking mga datasets ng mga pirated na libro na nagmula sa mga aklatan tulad ng Libgen sa pamamagitan ng BitTorrent file-pagbabahagi. Ang mga dokumento sa korte ay naiulat na nagsiwalat ng panloob na pangamba, na may isang inhinyero na sinipi na nagsasabing,”Ang pag-agos mula sa isang [meta-pagmamay-ari] na corporate laptop ay hindi nararamdaman ng tama.”

Ang nasabing mga kontrobersya ay maaaring kumatawan ng isang malaking, kung hindi gaanong nakikita, ang driver ng pangkalahatang gastos sa pag-unlad ng AI. Ang mga modelo ay isinama sa mga tampok ng Meta AI sa buong WhatsApp, Instagram, at Facebook ilang sandali pagkatapos ilunsad. Ginawa rin silang magagamit para sa pag-download at sa pamamagitan ng mga kasosyo sa ulap-kabilang ang Amazon Sagemaker Jumpstart at Microsoft’s -kahit na kapansin-pansin sa ilalim ng isang pasadyang komersyal na lisensya, hindi isang tipikal na open-source. Ang kinokontrol na diskarte sa paglabas na ito ay nagpapanatili ng meta na kasangkot sa paglawak ng llama, ang pagbabalanse ng pagiging bukas na may mga interes sa komersyal. Pinipigilan nito ang mga gumagamit ng iPhone mula sa paggamit ng mga tool sa pagsulat ng AI ng Apple o Genmoji sa loob ng Facebook o Instagram, na itinutulak ang mga ito patungo sa mga alternatibong batay sa llama na batay sa Meta sa halip. Ang diskarte ni Meta ay naiiba din sa higit na nakatuon sa privacy ng Apple, madalas na on-device model, isang pagkakaiba-iba na na-highlight ng pampublikong talakayan ng Meta tungkol sa pag-tune ng Llama 4 na pampulitika at ang sabay-sabay, kontrobersyal na roll-back ng third-party fact-checking sa US simula ng Enero 2025. href=”https://www.llama.com/events/llamacon/signup/”target=”_ blangko”> llamacon event Naka-iskedyul para sa Abril 29, potensyal na nag-aalok ng mga update sa napakalaking modelo ng behemoth o ang paparating na LLAMA 4-V Vision Model.

Categories: IT Info