Cohere for AI, divizioni i kërkimit i kompanisë kanadeze Cohere, ka zbuluar Aya 23, një seri të re modelesh gjuhësore shumëgjuhëshe. Këto modele të reja, të disponueshme në 8 miliardë e 35 miliardë versione parametrash, synojnë të përmirësojnë të kuptuarit dhe gjenerimin e gjuhës njerëzore në një gamë të ndryshme të gjuhëve. Peshat e hapura të modeleve tani janë të arritshme, duke i lejuar kërkuesit t’i përshtatin ato sipas nevojave të tyre specifike.
Mundësitë shumëgjuhëshe dhe grupi i të dhënave
Modelet e Aya 23 shtrijnë mbështetjen në 23 gjuhë, duke përfshirë arabisht, kinezisht, frëngjisht, gjermanisht dhe japonisht, ndër të tjera. Kjo gamë e gjerë gjuhësore shënon një largim nga modelet e mëparshme që fokusoheshin kryesisht në anglisht. Modelet u zhvilluan duke përdorur Koleksionin Aya, një grup të dhënash që përfshin 513 milionë raste të kërkesave dhe plotësimeve, gjë që ishte thelbësore në rregullimin e modeleve për përgjigje me cilësi të lartë në gjuhë të ndryshme.
Krijimi i Aya 23. përfshiu kontribute nga mbi 3,000 studiues të pavarur nga 119 vende, duke nënvizuar natyrën bashkëpunuese të projektit. Kjo pjesëmarrje e gjerë ndihmoi që modelet të jenë të fuqishme dhe të gjithanshme, të afta për të trajtuar një gamë të gjerë nuancash dhe kontekstesh gjuhësore.
Performanca dhe Specifikimet Teknike
Vlerësimet teknike zbulojnë se varianti prej 35 miliardë parametrash i Aya 23, i njohur si Aya-23-35B, shkëlqen si në detyrat diskriminuese ashtu edhe në ato gjeneruese. Ai ka treguar përmirësime deri në 14% në detyrat diskriminuese dhe 20% në detyrat gjeneruese në krahasim me paraardhësin e tij, Aya 101. Për më tepër, ai arriti një rritje prej 41,6% në performancën shumëgjuhëshe të MMLU.
Aya-23-35B përdor një arkitekturë Transformer vetëm për dekoder, e cila rrit aftësinë e modelit për të gjeneruar rezultate të sakta duke analizuar kontekstin e fjalëve në kërkesat e përdoruesit. Ky model përfshin gjithashtu vëmendjen e grupuar të pyetjeve për të optimizuar përdorimin e RAM-it dhe për të përmirësuar shpejtësinë e përfundimit. Për më tepër, futjet e pozicionit rrotullues përdoren për të përpunuar më mirë informacionin pozicional të fjalëve brenda një fjalie, duke rritur kështu cilësinë e daljes.
Qasshmëria dhe licencimi
E hapura. Peshat e modeleve Aya 23 janë të disponueshme në Hugging Face nën licencën publike ndërkombëtare Creative Commons Attribution-NonCommercial 4.0. Kjo zgjedhje licencimi siguron që komuniteti më i gjerë i kërkimit mund të angazhohet dhe të ndërtohet mbi Cohere për punën e AI. Për më tepër, modelet mund të eksplorohen përmes Cohere Playground, i cili ofron akses falas në këto modele të avancuara shumëgjuhëshe.
Cohere Inc., me seli në Toronto, ka mbledhur mbi 400 milionë dollarë nga investitorë të tillë si Nvidia Corp. dhe Oracle Corp. Kompania është e specializuar në modele të mëdha gjuhësore të dizajnuara për aplikacione të ndërmarrjeve. Përveç serisë Aya, Cohere ofron gjithashtu një rrjet nervor të quajtur Embed, i cili transformon të dhënat në struktura matematikore që janë më të kuptueshme për modelet gjuhësore.
Para Aya 23, Cohere lëshoi Aya-101, një model i aftë për të. të kuptuarit e 101 gjuhëve. Megjithatë, Aya-23-35B i ri ka demonstruar performancë superiore në vlerësimet e brendshme dhe detyrat e përpunimit shumëgjuhësh të tekstit në krahasim me modelet e tjera të gjuhëve të mëdha me burim të hapur (LLM).