Cohere for AI ซึ่งเป็นแผนกวิจัยของบริษัท Cohere ในแคนาดา ได้เปิดตัว Aya 23 ซึ่งเป็นซีรีส์ภาษาหลายภาษาชุดใหม่ โมเดลใหม่เหล่านี้มีให้เลือกใช้งานในเวอร์ชันพารามิเตอร์ 8 พันล้านและ 35 พันล้าน มีเป้าหมายเพื่อเพิ่มความเข้าใจและการสร้างภาษามนุษย์ในขอบเขตที่หลากหลาย ของภาษา ขณะนี้สามารถเข้าถึงตุ้มน้ำหนักแบบเปิดของโมเดลได้ ช่วยให้นักวิจัยปรับแต่งตามความต้องการเฉพาะของตนได้
ความสามารถและชุดข้อมูลหลายภาษา
โมเดล Aya 23 ขยายการรองรับไปยัง 23 ภาษา รวมถึงอารบิก จีน ฝรั่งเศส เยอรมัน ญี่ปุ่น และอื่นๆ ช่วงภาษาที่กว้างนี้ถือเป็นการแตกต่างจากรุ่นก่อน ๆ ที่เน้นภาษาอังกฤษเป็นหลัก แบบจำลองได้รับการพัฒนาโดยใช้ Aya Collection ซึ่งเป็นชุดข้อมูลที่ประกอบด้วยอินสแตนซ์ของข้อความแจ้งและการเสร็จสิ้น 513 ล้านอินสแตนซ์ ซึ่งมีความสำคัญอย่างยิ่งในการปรับแต่งแบบจำลองอย่างละเอียดเพื่อการตอบกลับคุณภาพสูงในภาษาต่างๆ
การสร้าง Aya 23 เกี่ยวข้องกับการมีส่วนร่วมจากนักวิจัยอิสระมากกว่า 3,000 คนใน 119 ประเทศ ซึ่งเน้นย้ำลักษณะการทำงานร่วมกันของโครงการ การมีส่วนร่วมอย่างกว้างขวางนี้ช่วยให้แน่ใจว่าโมเดลต่างๆ มีความแข็งแกร่งและอเนกประสงค์ สามารถจัดการกับความแตกต่างทางภาษาและบริบทที่หลากหลายได้
ประสิทธิภาพและข้อกำหนดทางเทคนิค
การประเมินทางเทคนิคพบว่าตัวแปรพารามิเตอร์ 35 พันล้านของ Aya 23 เป็นที่รู้จัก ในฐานะ Aya-23-35B มีความเป็นเลิศทั้งในงานแยกแยะและงานสร้างสรรค์ โดยแสดงให้เห็นการปรับปรุงสูงสุดถึง 14% ในงานที่เลือกปฏิบัติ และ 20% ในงานเชิงสร้างสรรค์ เมื่อเทียบกับ Aya 101 รุ่นก่อน นอกจากนี้ ยังเพิ่มประสิทธิภาพ MMLU หลายภาษาได้ 41.6%
Aya-23-35B ใช้สถาปัตยกรรม Transformer อย่างเดียวสำหรับตัวถอดรหัส ซึ่งเพิ่มความสามารถของโมเดลในการสร้างเอาต์พุตที่แม่นยำโดยการวิเคราะห์บริบทของคำในข้อความแจ้งของผู้ใช้ โมเดลนี้ยังรวมความสนใจในการสืบค้นแบบกลุ่มเพื่อเพิ่มประสิทธิภาพการใช้งาน RAM และปรับปรุงความเร็วในการอนุมาน นอกจากนี้ การฝังตำแหน่งแบบหมุนยังใช้เพื่อประมวลผลข้อมูลตำแหน่งของคำภายในประโยคได้ดีขึ้น ซึ่งจะช่วยปรับปรุงคุณภาพงานพิมพ์
การเข้าถึงและการออกใบอนุญาต
การเปิด น้ำหนักของรุ่น Aya 23 มีอยู่ใน Hugging Face ภายใต้ Creative Commons Attribution-NonCommercial 4.0 International Public License ตัวเลือกการออกใบอนุญาตนี้ช่วยให้แน่ใจว่าชุมชนการวิจัยในวงกว้างสามารถมีส่วนร่วมและต่อยอดงานของ AI ได้จาก Cohere นอกจากนี้ ยังสามารถสำรวจโมเดลต่างๆ ผ่านทาง Cohere Playground ซึ่งให้สิทธิ์เข้าถึงโมเดลหลายภาษาขั้นสูงเหล่านี้ได้ฟรี
Cohere Inc. ซึ่งมีสำนักงานใหญ่ในโตรอนโต สามารถระดมทุนได้มากกว่า 400 ล้านดอลลาร์จากนักลงทุน เช่น Nvidia Corp. และ Oracle Corp. บริษัทเชี่ยวชาญด้านโมเดลภาษาขนาดใหญ่ที่ออกแบบมาสำหรับแอปพลิเคชันระดับองค์กร นอกเหนือจากซีรีส์ Aya แล้ว Cohere ยังมีโครงข่ายประสาทเทียมที่เรียกว่า Embed ซึ่งแปลงข้อมูลเป็นโครงสร้างทางคณิตศาสตร์ที่เข้าใจได้ง่ายยิ่งขึ้นสำหรับโมเดลภาษา
ก่อน Aya 23 Cohere ได้เปิดตัว Aya-101 ซึ่งเป็นโมเดลที่มีความสามารถ ของการทำความเข้าใจ 101 ภาษา อย่างไรก็ตาม Aya-23-35B ใหม่ได้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในการประเมินภายในและงานประมวลผลข้อความหลายภาษา เมื่อเปรียบเทียบกับโมเดลภาษาขนาดใหญ่แบบโอเพ่นซอร์ส (LLM) อื่นๆ