Silo AI 是一家總部位於芬蘭的人工智慧新創公司,也是歐洲對OpenAI 的回應,擁有宣布推出Poro,這是一個突破性的大語言模型(LLM),具有特殊的專注於歐洲語言。 Poro 作為一項開源計劃脫穎而出,旨在顯著擴展多語言人工智慧功能。 Poro 源自芬蘭語中的「馴鹿」一詞,標誌著一項開創性的進步,它計劃涵蓋所有24 種歐盟官方語言。

創新合作

Silo AI 的生成式人工智慧部門,於2022 年底與圖爾庫大學的TurkuNLP 研究小組合作成立。這項合作關係體現了應用人工智慧專業知識和學術卓越的整合。該倡議由Silo AI 執行長Peter Sarlin 牽頭,強調了「數位主權」的必要性,旨在保留歐洲內部的價值創造。

Poro 的技術實力

在開展這項業務時,Poro 34B 型號採用了 BLOOM 變壓器架構與 ALiBi 嵌入結合;旨在增強其語言處理能力的組合。 BLOOM AI模型是一個大型語言模型,可以產生46種自然語言和13種程式語言的文字。它是由來自 70 多個國家和 250 多個機構的 1000 多名人工智慧研究人員使用法國的 Jean Zay 超級電腦合作創建的。

Poro 34B 在21 兆代幣多語言資料集上進行訓練,可處理以下語言:英語、芬蘭語以及各種程式語言,包括 Python 和 Java。值得注意的是,該模型在歐洲最快的超級電腦 LUMI 上運行,該電腦透過其512 AMD Instinct MI250X 擁有令人印象深刻的74 petaflops 運算能力GPU。

Poro 採用的方法解決了為傳統上資源較少的語言(例如芬蘭語)開發有效的自然語言模型的關鍵挑戰。透過利用跨語言訓練方法,Poro 旨在透過學習資料豐富的語言來提高效能,從而使資料較少的語言受益。

Poro 的成就即使在僅30% 培訓的里程碑上也是顯而易見的完成。它不僅優於現有的芬蘭語特定模型,而且正在迅速縮小與英語模型設定的表現基準的差距。 Sarlin 指出了Poro 的雙重成就,展示了在低資源語言方面的卓越表現,同時達到了英語語言基準。

透明度和開源承諾

本著這種精神為了提高透明度,SiloGen 啟動了 Poro 研究檢查點計劃,為模型的訓練進度提供前所未有的訪問權限。薩林表示,此類措施很少見,這意味著模型訓練透明度進入了新紀元。 Poro 的發展基準將定期分享,為人工智慧社群提供寶貴的資源和見解。

至於該專案的願景,即推動Poro 成為科技公司開發的模型的道德和透明替代品,Sarlin 強調了這一點的重要性開源人工智慧模型。他斷言歐盟有意在其境內培育價值,他設想Poro 能夠促進歐洲企業利用自己的專有模型來促進價值創造的未來。

Silo AI 的擴展計劃包括定期發布檢查點,直到模型達到預期目標為止。培訓達到頂峰。決定性的目標是組裝一套能夠服務所有歐洲語言的開源模型。 Poro 的初步結果似乎很有希望,顯示大型科技公司在人工智慧領域存在潛在的競爭。

Categories: IT Info