A kanadai Cohere vállalat kutatási részlege, a
Cohere for AI bemutatta az Aya 23-at, a többnyelvű nyelvi modellek új sorozatát. Ezek az új modellek, amelyek 8 milliárd és 35 milliárd paraméteres változatban állnak rendelkezésre, célja az emberi nyelv megértésének és generálásának javítása a legkülönbözőbb tartományokban. nyelvek. A modellek nyitott súlyai már elérhetőek, lehetővé téve a kutatók számára, hogy saját igényeikhez igazítsák őket.
Többnyelvű képességek és adatkészlet
Az Aya 23 modellek támogatása 23 nyelv, többek között arab, kínai, francia, német és japán. Ez a széles nyelvi tartomány eltérést jelent a korábbi, elsősorban az angolra összpontosító modellektől. A modelleket az Aya Collection segítségével fejlesztették ki, amely adatkészlet 513 millió felszólítást és kiegészítést tartalmaz, ami kulcsfontosságú volt a modellek finomhangolásában a különböző nyelveken elérhető kiváló minőségű válaszok érdekében.
Az Aya 23 létrehozása több mint 3000 független kutató közreműködésével 119 országból, hangsúlyozva a projekt együttműködési jellegét. Ez a kiterjedt részvétel segített abban, hogy a modellek robusztusak és sokoldalúak legyenek, és képesek legyenek a nyelvi árnyalatok és kontextusok széles skálájának kezelésére.
Teljesítmény-és műszaki adatok
A műszaki értékelések azt mutatják, hogy az Aya 23 35 milliárd paraméteres változata ismert mint Aya-23-35B, mind a diszkriminatív, mind a generatív feladatokban kiváló. Elődjéhez, az Aya 101-hez képest akár 14%-os javulást mutatott a diszkriminatív feladatokban és 20%-kal a generatív feladatokban. Ezenkívül 41,6%-os növekedést ért el a többnyelvű MMLU teljesítményében.
Aya-23-A 35B csak dekódoló Transformer architektúrát alkalmaz, amely javítja a modell azon képességét, hogy pontos kimeneteket generáljon azáltal, hogy elemzi a szavak kontextusát a felhasználói promptokban. Ez a modell csoportosított lekérdezési figyelmet is tartalmaz a RAM-használat optimalizálása és a következtetési sebesség javítása érdekében. Ezen túlmenően a rotációs pozíciós beágyazások segítségével jobban feldolgozzák a mondaton belüli szavak helyzetinformációit, ezáltal javítva a kimenet minőségét.
Hozzáférhetőség és engedélyezés
A nyílt Az Aya 23 modellek súlyai a Hugging Face oldalon érhetők el a Creative Commons Nevezd meg! – Nem kereskedelmi 4.0 nemzetközi nyilvános licence alatt. Ez az engedélyezési választás biztosítja, hogy a szélesebb kutatói közösség részt vegyen a Cohere for AI munkájában, és építhessen rá. Ezenkívül a modellek felfedezhetők a Cohere Playgroundon keresztül, amely ingyenes hozzáférést biztosít ezekhez a fejlett többnyelvű modellekhez.
A torontói székhelyű Cohere Inc. több mint 400 millió dollárt gyűjtött be olyan befektetőktől, mint az Nvidia Corp. és Oracle Corp. A vállalat vállalati alkalmazásokhoz tervezett nagy nyelvi modellekre specializálódott. Az Aya sorozaton kívül a Cohere egy Embed nevű neurális hálózatot is kínál, amely az adatokat olyan matematikai struktúrákká alakítja, amelyek érthetőbbek a nyelvi modellek számára.
Az Aya 23 előtt a Cohere kiadta az Aya-101 modellt, amely képes 101 nyelv megértése. Az új Aya-23-35B azonban kiváló teljesítményt nyújtott a belső értékelések és a többnyelvű szövegfeldolgozási feladatok terén, összehasonlítva más nyílt forráskódú nagynyelvi modellekkel (LLM).