Senibina Transformer yang menggerakkan banyak model bahasa yang paling berkebolehan hari ini menghadapi cabaran yang didokumentasikan dengan baik: tuntutan pengiraannya berkembang secara kuadrat sebagai urutan input semakin lama. href=”https://research.ibm.com/blog/bamba-ssm-transformer-model”target=”_ blank”> bamba-9b-v2 . Model sumber terbuka yang baru dikeluarkan ini menggunakan reka bentuk hibrid, menggabungkan komponen pengubah dengan arsitektur standard Model Model (SSM) Mamba2. href=”https://arxiv.org/abs/1706.03762″target=”_ blank”>”Perhatian adalah semua yang anda perlukan,” berhutang banyak kejayaan mereka kepada mekanisme perhatian diri.

src=”https://winbuzzer.com/wp-content/uploads/2024/12/ai-artificial-intelligence-abstract.webp”>

Walau bagaimanapun, perbandingan semua ini menghasilkan pengiraan dan keperluan memori, terutamanya untuk cache KV yang menyimpan keadaan perhatian, berskala secara quadratically dengan peningkatan panjang urutan.”Kesesakan kuadrat”ini menjadikan pemprosesan konteks yang sangat panjang semakin lambat dan mahal, satu isu yang diserlahkan dalam perbincangan industri awal tahun ini mengenai kelestarian model AI yang berskala. href=”https://en.wikipedia.org/wiki/mamba_(deep_learning_architecture)”sasaran=”_ blank”> model space space (ssms) sasaran=”_ blank”> disesuaikan untuk pembelajaran mendalam , untuk mengurangkan ketidakcekapan pengubah. Varian spesifik yang digunakan ialah mamba2, yang dibangunkan oleh albert gu (cmu) dan tri dao (princeton) Berpotensi dalam masa linear semasa latihan (melalui pandangan konvolusi) dan masa malar per token semasa kesimpulan (melalui pandangan berulang). Ankit Gupta, seorang penyelidik IBM yang terlibat dalam kerja SSM asas, mencatatkan peranan tradisional mereka:”Mereka adalah roti dan mentega kejuruteraan elektrik-pemprosesan isyarat, robotik, dan teori kawalan.”Matlamatnya adalah untuk memanfaatkan SSM untuk mengendalikan ketergantungan jarak jauh dengan cekap sambil mengekalkan perhatian untuk keupayaan pemahaman konteksnya yang kuat. Versi kuantitatif 8-bit (mengurangkan saiz dari 18GB hingga 9GB), menjanjikan. Model yang dilatih pada token 3 trilion, dilaporkan sepadan dengan meta llama 3.1 8b

Proses

IBM dan kolaboratornya melepaskan Bamba di bawah model terbuka, memberikan akses kepada berat model, butiran latihan, dan kod melalui memeluk face bamba koleksi dan Repository github projek href=”https://huggingface.co/blog/ibm-ai-platform/bamba-9b-v2″target=”_ blank”> Penciptaan Bamba v2 melibatkan beberapa peringkat, bermula dari 2T Token Bamba V1 (yang dikeluarkan sekitar Krismas 2024). Pertama, latihan dilanjutkan kepada token 2.5T menggunakan olmo mix dataset. Kemudian, dua model berasingan dilatih sehingga token 3T menggunakan campuran tersuai termasuk data Nemotron-CC, masing-masing dengan jadual kadar pembelajaran yang berbeza (pemalar vs cosine decay). Akhirnya, kedua-dua model 3T”annealed”pada token berkualiti tinggi 100B sebelum digabungkan menggunakan purata berwajaran Mergekit.

Mengoptimumkan prestasi kesimpulan tetap menjadi tumpuan utama. Pasukan ini secara aktif bekerja dengan vllm community

Senibina Bamba mewakili lebih daripada sekadar penjelajahan penyelidikan. IBM telah mengesahkan bahawa ciri-ciri utama dari projek Bamba akan dimasukkan ke dalam model yang akan datang IBM Granite 4.0 model perusahaan, yang ditetapkan untuk dibebaskan pada bulan-bulan yang akan datang. Integrasi yang dirancang ini menyoroti minat industri yang semakin meningkat dalam seni bina AI hibrid sebagai jalan praktikal ke arah model bahasa yang lebih cekap dan berskala yang mampu mengendalikan permintaan konteks yang semakin panjang bagi aplikasi AI moden.

Categories: IT Info