加拿大公司 Cohere 的研究部門Cohere for AI 推出了 Aya 23,這是一系列新的多語言語言模型。這些新模型有 80 億和 350 億個參數版本,旨在增強各種範圍內的人類語言的理解和生成的語言。現在可以存取模型的開放權重,使研究人員能夠根據自己的特定需求進行自訂。 23 模型將支援擴展到23種語言,包括阿拉伯語、中文、法語、德語、日語等。這種廣泛的語言範圍標誌著與主要關注英語的早期模型的背離。這些模型是使用 Aya Collection 開發的,該資料集包含 5.13 億個提示和完成實例,這對於微調模型以實現跨各種語言的高品質響應至關重要。來自119 個國家3,000 多名獨立研究人員的貢獻,凸顯了該計畫的協作性質。這種廣泛的參與有助於確保模型穩健且通用,能夠處理各種語言的細微差別和上下文。 05/Aya-23-Cohere-for-AI.jpg”>
性能和技術規格
技術評估顯示,Aya 23 的350 億個參數變體,已知Aya-23-35B 在判別性任務和生成性任務中都表現出色。與前身Aya 101 相比,它在判別任務上提高了14%,在生成任務上提高了20%。-35B 採用僅解碼器的 Transformer 架構,該架構透過分析使用者提示中的單字上下文來增強模型產生準確輸出的能力。該模型還結合了分組查詢注意力來優化 RAM 使用並提高推理速度。此外,旋轉位置嵌入用於更好地處理句子中單字的位置信息,從而提高輸出品質。 Aya 23 型號的重量可在Hugging Face 上根據Creative Commons Attribution-NonCommercial 4.0 International Public License 獲得。這種許可選擇確保更廣泛的研究社群能夠參與 Cohere 並在其基礎上進行 AI 工作。此外,還可以透過 Cohere Playground 探索這些模型,Cohere Playground 提供這些先進多語言模型的免費存取權。於為企業應用程式設計的大型語言模型。除了Aya 系列之外,Cohere 還提供了一個名為Embed 的神經網絡,它將資料轉換為語言模型更容易理解的數學結構。 ,這是一個能夠實現模型功能的模型。然而,與其他開源大語言模型(LLM)相比,新的Aya-23-35B在內部評估和多語言文本處理任務中表現出了卓越的表現。