Qualcomm on solminut kumppanuuden Arm-palvelinprosessorien suunnittelijan Ampere Computingin kanssa vahvistaakseen tekoälyinfrastruktuurin ominaisuuksia. Tämä yhteistyö paljastettiin Amperen vuosittaisen strategian ja tiekartan päivityksen yhteydessä. Siinä esiteltiin 2U:n palvelin, joka on varustettu kahdeksalla Qualcomm AI 100 Ultra-kiihdyttimellä ja 192 Ampere CPU-ytimellä koneoppimispäätelmiä varten.

Qualcomm Cloud AI 100 Ultra tarjoaa suorituskykyisen ja kustannusoptimoidun tekoälyn päättelyratkaisun, joka on räätälöity generatiiviseen tekoälyyn ja suuret kielimallit (LLM). Siinä on jopa 576 megatavua kiinteää SRAM-muistia ja 64 tekoälyydintä korttia kohden, mikä vastaa sekä klassisten että generatiivisten tekoälytyökuormien skaalaustarpeisiin, mukaan lukien tietokonenäkö, luonnollisen kielen käsittely ja muuntajapohjaiset LLM:t.

High-Density ARM AI Solutions 

Ampere sanoo, että tämä kokoonpano tukee jopa 56 tekoälykiihdytintä ja 1 344 laskentaydintä tavallisessa 12,5 kW:n telineessä, mikä eliminoi kalliiden laitteiden tarpeen nestejäähdytysjärjestelmät. Yhtiö ilmoitti myös, että sen uusimmassa palvelinprosessorissa on 256 CPU-ydintä ja jopa 12 muistikanavaa, mikä siirtyy ensi vuonna TSMC:n 3nm:n prosessitekniikkaan.

Ampere ja Oracle ovat osoittaneet, että suuria kielimalleja (LLM) voidaan käyttää suorittimissa, vaikkakin tietyin rajoituksin. Prosessorit sopivat yleensä paremmin pienempiin malleihin, joissa on seitsemästä kahdeksaan miljardia parametria ja pienempiä eräkokoja. Qualcommin AI 100-kiihdyttimet, joiden muistin kaistanleveys on suurempi, on suunniteltu käsittelemään suurempia malleja tai suurempia eräkokoja, mikä tekee niistä tehokkaampia päättelytehtävissä.

Qualcommin AI 100 Ultra-kiihdytin

Qualcommin AI 100 Ultra-kiihdyttimet ovat olleet saatavilla useiden vuosien ajan, vaikka niitä ei olekaan tunnustettu niin laajalti tietokeskusten AI-sirumarkkinoilla kuin Nvidian GPU:t tai Intelin Gaudi. Viime syksynä esitelty AI 100 Ultra-sarja on ohut yhden paikan PCIe-kortti, joka on tarkoitettu LLM-päätelmään. 150 W:n tehovaatimukset ovat vaatimattomat verrattuna AMD:n ja Nvidian 600 W ja 700 W GPU:ihin. Qualcomm väittää, että yksi AI 100 Ultra voi ajaa 100 miljardia parametrimallia, ja pari tukee GPT-3-mittakaavamalleja (175 miljardia parametria).

64-ytiminen AI 100 Ultra-kortti tuottaa 870 TOP-pistettä INT8-tarkkuudella ja siinä on 128 Gt LPDDR4x-muistia, joka tarjoaa 548 Gt/s kaistanleveyttä. Muistin kaistanleveys on välttämätöntä tekoälyn päättelyn skaalaamiseksi suurempiin eräkokoihin. Qualcomm on ottanut käyttöön ohjelmistooptimointeja, kuten spekulatiivista dekoodausta ja mikroskaalausmuotoja (MX), parantaakseen suorituskykyä ja tehokkuutta. Spekulatiivinen dekoodaus käyttää pienempää mallia alkuperäisten vastausten luomiseen, jotka sitten tarkistetaan ja korjataan suuremmalla mallilla. Mikroskaalausmuodot, eräs kvantisoinnin muoto, pienentävät mallien muistin jalanjälkeä pakkaamalla mallien painoja pienempään tarkkuuteen.

Categories: IT Info