Cohere for AI, ang research division ng Canadian company na Cohere, ay nag-unveil ng Aya 23, isang bagong serye ng mga multilingguwal na modelo ng wika. Ang mga bagong modelo na ito, na available sa 8 bilyon at 35 bilyong bersyon ng parameter, ay naglalayong pahusayin ang pag-unawa at pagbuo ng wika ng tao sa iba’t ibang saklaw ng mga wika. Ang mga bukas na timbang ng mga modelo ay naa-access na ngayon, na nagpapahintulot sa mga mananaliksik na maiangkop ang mga ito sa kanilang mga partikular na pangangailangan.

Mga Multilingual na Kakayahan at Dataset

Ang mga modelo ng Aya 23 ay nagpapalawak ng suporta sa 23 wika, kabilang ang Arabic, Chinese, French, German, at Japanese, bukod sa iba pa. Ang malawak na hanay ng linguistic na ito ay nagmamarka ng pag-alis mula sa mga naunang modelo na pangunahing nakatuon sa English. Ang mga modelo ay binuo gamit ang Aya Collection, isang dataset na binubuo ng 513 milyong mga pagkakataon ng mga prompt at pagkumpleto, na napakahalaga sa pag-fine-tune ng mga modelo para sa mga de-kalidad na tugon sa iba’t ibang wika.

Ang paglikha ng Aya 23 kasangkot ang mga kontribusyon mula sa mahigit 3,000 independiyenteng mananaliksik sa 119 na bansa, na binibigyang-diin ang likas na pagtutulungan ng proyekto. Ang malawak na pakikilahok na ito ay nakatulong na matiyak na ang mga modelo ay matatag at maraming nalalaman, na may kakayahang pangasiwaan ang isang malawak na hanay ng mga linguistic na nuances at konteksto.

Performance at Technical Specifications

Ipinapakita ng mga teknikal na pagsusuri na ang 35 bilyong parameter na variant ng Aya 23, na kilala bilang Aya-23-35B, mahusay sa parehong discriminative at generative na mga gawain. Nagpakita ito ng mga pagpapabuti ng hanggang 14% sa mga discriminative na gawain at 20% sa mga generative na gawain kumpara sa hinalinhan nito, ang Aya 101. Bukod pa rito, nakamit nito ang 41.6% na pagtaas sa multilingguwal na pagganap ng MMLU.

Aya-23-Gumagamit ang 35B ng isang decoder-only Transformer architecture, na nagpapahusay sa kakayahan ng modelo na bumuo ng mga tumpak na output sa pamamagitan ng pagsusuri sa konteksto ng mga salita sa mga senyas ng user. Isinasama rin ng modelong ito ang nakagrupong atensyon sa query upang ma-optimize ang paggamit ng RAM at mapahusay ang bilis ng hinuha. Higit pa rito, ginagamit ang mga rotational positional embeddings upang mas mahusay na maproseso ang positional na impormasyon ng mga salita sa loob ng isang pangungusap, sa gayon ay mapahusay ang kalidad ng output.

Accessibility at Licensing

Ang bukas Ang mga timbang ng mga modelo ng Aya 23 ay available sa Hugging Face sa ilalim ng Creative Commons Attribution-NonCommercial 4.0 International Public License. Tinitiyak ng pagpipiliang paglilisensya na ito na ang mas malawak na komunidad ng pananaliksik ay maaaring makipag-ugnayan at bumuo sa Cohere para sa gawain ng AI. Bukod pa rito, maaaring tuklasin ang mga modelo sa pamamagitan ng Cohere Playground, na nag-aalok ng libreng access sa mga advanced na modelong multilinggwal na ito.

Ang Cohere Inc., na headquarter sa Toronto, ay nakalikom ng mahigit $400 milyon mula sa mga mamumuhunan gaya ng Nvidia Corp. at Oracle Corp. Ang kumpanya ay dalubhasa sa malalaking modelo ng wika na idinisenyo para sa mga aplikasyon ng enterprise. Bukod sa serye ng Aya, nag-aalok din ang Cohere ng neural network na tinatawag na Embed, na nagpapalit ng data sa mga istrukturang matematikal na mas madaling maunawaan para sa mga modelo ng wika.

Bago ang Aya 23, inilabas ni Cohere ang Aya-101, isang modelong may kakayahang ng pag-unawa sa 101 wika. Gayunpaman, ang bagong Aya-23-35B ay nagpakita ng mahusay na pagganap sa mga panloob na pagsusuri at mga gawain sa pagpoproseso ng teksto sa maraming wika kumpara sa iba pang open-source na malalaking modelo ng wika (LLM).

Categories: IT Info