Cohere for AI, divisi penelitian dari perusahaan Kanada Cohere, telah meluncurkan Aya 23, serangkaian model bahasa multibahasa baru. model baru ini, tersedia dalam 8 miliar dan 35 miliar versi parameter, bertujuan untuk meningkatkan pemahaman dan generasi bahasa manusia di berbagai rentang bahasa. Bobot terbuka model kini dapat diakses, sehingga peneliti dapat menyesuaikannya dengan kebutuhan spesifik mereka.

Kemampuan dan Kumpulan Data Multibahasa

Model Aya 23 memperluas dukungan ke 23 bahasa, antara lain Arab, Cina, Prancis, Jerman, dan Jepang. Kisaran linguistik yang luas ini menandai penyimpangan dari model-model sebelumnya yang terutama berfokus pada bahasa Inggris. Model ini dikembangkan menggunakan Aya Collection, kumpulan data yang terdiri dari 513 juta contoh perintah dan penyelesaian, yang sangat penting dalam menyempurnakan model untuk respons berkualitas tinggi dalam berbagai bahasa.

Pembuatan Aya 23 melibatkan kontribusi lebih dari 3.000 peneliti independen di 119 negara, yang menggarisbawahi sifat kolaboratif dari proyek ini. Partisipasi ekstensif ini membantu memastikan bahwa model tersebut kuat dan serbaguna, serta mampu menangani beragam nuansa dan konteks linguistik.

Kinerja dan Spesifikasi Teknis

Evaluasi teknis mengungkapkan bahwa varian 35 miliar parameter dari Aya 23, diketahui sebagai Aya-23-35B, unggul dalam tugas diskriminatif dan generatif. Ini telah menunjukkan peningkatan hingga 14% pada tugas diskriminatif dan 20% pada tugas generatif dibandingkan pendahulunya, Aya 101. Selain itu, ia mencapai peningkatan kinerja MMLU multibahasa sebesar 41,6%.

Aya-23-35B menggunakan arsitektur Transformer khusus dekoder, yang meningkatkan kemampuan model untuk menghasilkan keluaran yang akurat dengan menganalisis konteks kata dalam perintah pengguna. Model ini juga menggabungkan perhatian kueri yang dikelompokkan untuk mengoptimalkan penggunaan RAM dan meningkatkan kecepatan inferensi. Selain itu, penyematan posisi rotasi digunakan untuk memproses informasi posisi kata dalam kalimat dengan lebih baik, sehingga meningkatkan kualitas keluaran.

Aksesibilitas dan Lisensi

Yang terbuka bobot model Aya 23 tersedia di Hugging Face di bawah Lisensi Publik Internasional Creative Commons Attribution-NonCommercial 4.0. Pilihan lisensi ini memastikan komunitas riset yang lebih luas dapat terlibat dan mengembangkan karya Cohere for AI. Selain itu, model-model tersebut dapat dieksplorasi melalui Cohere Playground, yang menawarkan akses gratis ke model multibahasa canggih ini.

Cohere Inc., yang berkantor pusat di Toronto, telah mengumpulkan lebih dari $400 juta dari investor seperti Nvidia Corp. dan Oracle Corp. Perusahaan ini berspesialisasi dalam model bahasa besar yang dirancang untuk aplikasi perusahaan. Selain seri Aya, Cohere juga menawarkan jaringan saraf yang disebut Embed, yang mengubah data menjadi struktur matematika yang lebih mudah dipahami untuk model bahasa.

Sebelum Aya 23, Cohere merilis Aya-101, model yang mampu memahami 101 bahasa. Namun, Aya-23-35B baru telah menunjukkan kinerja yang unggul dalam evaluasi internal dan tugas pemrosesan teks multibahasa dibandingkan dengan model bahasa besar (LLM) sumber terbuka lainnya.

Categories: IT Info