Cohere for AI, kanadalaisen Coheren tutkimusosasto, on julkistanut Aya 23:n, uuden sarjan monikielisiä kielimalleja. Nämä uudet mallit, jotka ovat saatavilla 8 miljardin ja 35 miljardin parametrin versioina, pyrkivät parantamaan ihmisten kielen ymmärtämistä ja luomista monilla eri alueilla. kielistä. Mallien avoimet painot ovat nyt käytettävissä, joten tutkijat voivat räätälöidä ne omien tarpeidensa mukaan.
Monikieliset ominaisuudet ja tietosarja
Aya 23-mallit laajentavat tukea 23 kieltä, mukaan lukien muun muassa arabia, kiina, ranska, saksa ja japani. Tämä laaja kielellinen valikoima merkitsee poikkeamaa aiemmista malleista, jotka keskittyivät pääasiassa englannin kieleen. Mallit kehitettiin käyttämällä Aya Collection-tietosarjaa, joka sisältää 513 miljoonaa kehotteen ja täydennyksen esiintymää. Tämä oli ratkaisevan tärkeää mallien hienosäädössä korkealaatuisten vastausten saamiseksi eri kielillä.
Aya 23:n luominen mukana yli 3 000 riippumatonta tutkijaa 119 maasta, mikä korosti hankkeen yhteistoimintaa. Tämä laaja osallistuminen auttoi varmistamaan, että mallit ovat kestäviä ja monipuolisia, ja ne pystyvät käsittelemään laajan valikoiman kielellisiä vivahteita ja konteksteja.
Suorituskyky ja tekniset tiedot
Tekniset arvioinnit paljastavat, että Aya 23:n 35 miljardin parametrin muunnos tunnetaan Kuten Aya-23-35B, on erinomainen sekä erottelevissa että generatiivisissa tehtävissä. Se on osoittanut jopa 14 % parannuksia erottelevissa tehtävissä ja 20 % generatiivisissa tehtävissä verrattuna edeltäjäänsä Aya 101:een. Lisäksi se saavutti 41,6 % lisäyksen monikielisessä MMLU:ssa.
Aya-23-35B käyttää vain dekooderille tarkoitettua Transformer-arkkitehtuuria, joka parantaa mallin kykyä tuottaa tarkkoja lähtöjä analysoimalla sanojen kontekstia käyttäjän kehotteissa. Tämä malli sisältää myös ryhmitellyn kyselyn, joka optimoi RAM-muistin käytön ja parantaa päättelynopeutta. Lisäksi kiertyviä sijainti upotuksia käytetään paremmin käsittelemään lauseen sanojen sijaintitietoja, mikä parantaa tulosten laatua.
Saatavuus ja lisensointi
Avoin Aya 23-mallien painot ovat saatavilla Hugging Facessa Creative Commons Attribution-NonCommercial 4.0 International Public License-lisenssillä. Tämä lisensointivalinta varmistaa, että laajempi tutkimusyhteisö voi osallistua Coheren tekoälyn työhön ja kehittää sitä. Lisäksi malleihin voi tutustua Cohere Playgroundin kautta, joka tarjoaa ilmaisen pääsyn näihin edistyneisiin monikielisiin malleihin.
Cohere Inc., jonka pääkonttori on Torontossa, on kerännyt yli 400 miljoonaa dollaria sijoittajilta, kuten Nvidia Corp. Oracle Corp. Yritys on erikoistunut suuriin yrityssovelluksiin suunniteltuihin kielimalleihin. Aya-sarjan lisäksi Cohere tarjoaa myös Embed-nimisen hermoverkon, joka muuntaa tiedot matemaattisiksi rakenteiksi, jotka ovat paremmin ymmärrettäviä kielimalleille.
Ennen Aya 23:ta Cohere julkaisi Aya-101-mallin, joka pystyy ymmärtää 101 kieltä. Uusi Aya-23-35B on kuitenkin osoittanut ylivoimaista suorituskykyä sisäisissä arvioinneissa ja monikielisissä tekstinkäsittelytehtävissä verrattuna muihin avoimen lähdekoodin suuriin kielimalleihin (LLM).