Cohere for AI, a divisão de pesquisa da empresa canadense Cohere, revelou o Aya 23, uma nova série de modelos de idiomas multilíngues. Esses novos modelos, disponíveis em 8 bilhões e 35 bilhões de versões de parâmetros, visam melhorar a compreensão e a geração da linguagem humana em uma ampla gama de línguas. Os pesos abertos dos modelos agora estão acessíveis, permitindo que os pesquisadores os adaptem às suas necessidades específicas.
Recursos multilíngues e conjunto de dados
Os modelos Aya 23 estendem o suporte para 23 idiomas, incluindo árabe, chinês, francês, alemão e japonês, entre outros. Esta ampla gama linguística marca um afastamento dos modelos anteriores que se concentravam principalmente no inglês. Os modelos foram desenvolvidos usando a Coleção Aya, um conjunto de dados que compreende 513 milhões de instâncias de prompts e conclusões, o que foi crucial no ajuste fino dos modelos para respostas de alta qualidade em vários idiomas.
A criação do Aya 23 envolveu contribuições de mais de 3.000 pesquisadores independentes em 119 países, ressaltando a natureza colaborativa do projeto. Esta ampla participação ajudou a garantir que os modelos fossem robustos e versáteis, capazes de lidar com uma ampla gama de nuances e contextos linguísticos.
Desempenho e especificações técnicas
Avaliações técnicas revelam que a variante de 35 bilhões de parâmetros do Aya 23, conhecida como Aya-23-35B, é excelente em tarefas discriminativas e generativas. Ele mostrou melhorias de até 14% em tarefas discriminativas e 20% em tarefas generativas em comparação com seu antecessor, Aya 101. Além disso, alcançou um aumento de 41,6% no desempenho de MMLU multilíngue.
Aya-23-35B emprega uma arquitetura Transformer somente decodificadora, que aprimora a capacidade do modelo de gerar resultados precisos analisando o contexto das palavras nos prompts do usuário. Este modelo também incorpora atenção de consulta agrupada para otimizar o uso de RAM e melhorar a velocidade de inferência. Além disso, incorporações posicionais rotacionais são usadas para processar melhor as informações posicionais das palavras dentro de uma frase, melhorando assim a qualidade da saída.
Acessibilidade e licenciamento
A abertura os pesos dos modelos Aya 23 estão disponíveis no Hugging Face sob a Licença Pública Internacional Creative Commons Attribution-NonCommercial 4.0. Esta opção de licenciamento garante que a comunidade de pesquisa mais ampla possa se envolver e desenvolver o trabalho do Cohere for AI. Além disso, os modelos podem ser explorados através do Cohere Playground, que oferece acesso gratuito a esses modelos multilíngues avançados.
A Cohere Inc., com sede em Toronto, levantou mais de US$ 400 milhões de investidores como Nvidia Corp. Oracle Corp. A empresa é especializada em grandes modelos de linguagem projetados para aplicativos corporativos. Além da série Aya, a Cohere também oferece uma rede neural chamada Embed, que transforma dados em estruturas matemáticas mais compreensíveis para modelos de linguagem.
Antes da Aya 23, a Cohere lançou o Aya-101, um modelo capaz de compreender 101 idiomas. No entanto, o novo Aya-23-35B demonstrou desempenho superior em avaliações internas e tarefas de processamento de texto multilíngue em comparação com outros modelos de linguagem grande (LLMs) de código aberto.