Cohere for AI, de onderzoeksafdeling van het Canadese bedrijf Cohere, heeft Aya 23 onthuld, een nieuwe serie meertalige taalmodellen. Deze nieuwe modellen, beschikbaar in versies met 8 miljard en 35 miljard parameters, zijn bedoeld om het begrip en de ontwikkeling van menselijke taal over een breed scala te verbeteren. van talen. De open gewichten van de modellen zijn nu toegankelijk, waardoor onderzoekers ze kunnen afstemmen op hun specifieke behoeften.
Meertalige mogelijkheden en dataset
Aya 23-modellen breiden de ondersteuning uit naar 23 talen, waaronder onder andere Arabisch, Chinees, Frans, Duits en Japans. Dit brede taalkundige bereik markeert een afwijking van eerdere modellen die zich voornamelijk op het Engels concentreerden. De modellen zijn ontwikkeld met behulp van de Aya Collection, een dataset met 513 miljoen exemplaren van prompts en aanvullingen, wat cruciaal was bij het verfijnen van de modellen voor antwoorden van hoge kwaliteit in verschillende talen.
De creatie van Aya 23 Er waren bijdragen van meer dan 3.000 onafhankelijke onderzoekers uit 119 landen bij betrokken, wat het collaboratieve karakter van het project onderstreepte. Deze uitgebreide deelname heeft ervoor gezorgd dat de modellen robuust en veelzijdig zijn en in staat zijn een breed scala aan taalkundige nuances en contexten te verwerken.
Prestaties en technische specificaties
Technische evaluaties laten zien dat de 35 miljard parametervariant van Aya 23, bekend als Aya-23-35B, blinkt uit in zowel onderscheidende als generatieve taken. Het heeft verbeteringen tot 14% laten zien op discriminerende taken en 20% op generatieve taken vergeleken met zijn voorganger, Aya 101. Bovendien behaalde het een toename van 41,6% in meertalige MMLU-prestaties.
Aya-23-35B maakt gebruik van een Transformer-architectuur die alleen voor een decoder geschikt is, waardoor het model beter in staat is nauwkeurige uitvoer te genereren door de context van woorden in gebruikersprompts te analyseren. Dit model omvat ook gegroepeerde vraagaandacht om het RAM-gebruik te optimaliseren en de inferentiesnelheid te verbeteren. Bovendien worden roterende positionele inbedding gebruikt om de positionele informatie van woorden binnen een zin beter te verwerken, waardoor de uitvoerkwaliteit wordt verbeterd.
Toegankelijkheid en licentieverlening
De open gewichten van de Aya 23-modellen zijn beschikbaar op Hugging Face onder de Creative Commons Attribution-NonCommercial 4.0 International Public License. Deze licentiekeuze zorgt ervoor dat de bredere onderzoeksgemeenschap zich kan bezighouden met en kan voortbouwen op het werk van Cohere for AI. Bovendien kunnen de modellen worden verkend via de Cohere Playground, die gratis toegang biedt tot deze geavanceerde meertalige modellen.
Cohere Inc., met hoofdkantoor in Toronto, heeft meer dan $400 miljoen opgehaald bij investeerders zoals Nvidia Corp. en Oracle Corp. Het bedrijf is gespecialiseerd in grote taalmodellen die zijn ontworpen voor bedrijfstoepassingen. Naast de Aya-serie biedt Cohere ook een neuraal netwerk genaamd Embed, dat gegevens omzet in wiskundige structuren die begrijpelijker zijn voor taalmodellen.
Voorafgaand aan Aya 23 bracht Cohere Aya-101 uit, een model dat in staat is van het begrijpen van 101 talen. De nieuwe Aya-23-35B heeft echter superieure prestaties laten zien bij interne evaluaties en meertalige tekstverwerkingstaken in vergelijking met andere open-source grote taalmodellen (LLM’s).