Para peneliti di Tencent AI Lab telah meluncurkan kerangka kerja AI baru yang dirancang untuk melampaui batas kecepatan model bahasa besar saat ini.

Dirinci dalam makalah yang diterbitkan online minggu ini, sistem ini disebut CALM, untuk Model Bahasa Autoregresif Berkelanjutan. Hal ini secara langsung menantang proses lambat token-demi-token yang mendukung sebagian besar AI generatif saat ini.

Daripada memprediksi sepotong kecil kata dalam satu waktu, CALM belajar memprediksi satu vektor yang mewakili keseluruhan teks. Metode ini dapat membuat pembuatan AI jauh lebih cepat dan efisien, sehingga membuka jalur baru untuk penskalaan model.

Tirani Token: Autoregresif AI Hambatan

Kelemahan mendasar LLM modern adalah ketergantungan mereka pada pembuatan token demi token yang bersifat autoregresif. Ketergantungan sekuensial ini merupakan hambatan terbesar yang membatasi kecepatan dan skalabilitas AI.

Membuat artikel yang panjang memerlukan ribuan langkah prediksi berurutan, sehingga proses komputasi menjadi mahal dan lambat. Ini bukan hanya masalah akademis; itulah sebabnya penggunaan model yang canggih membutuhkan biaya yang mahal dan pembuatan model jangka panjang secara real-time masih menjadi tantangan.

Masalah efisiensi ini telah menjadi medan pertempuran utama bagi pengembang AI. Seperti yang disebutkan sebelumnya oleh Riset Google, “saat kami menerapkan model ini ke lebih banyak pengguna, menjadikannya lebih cepat dan lebih murah tanpa mengorbankan kualitas merupakan sebuah tantangan penting.”

Industri telah menjajaki berbagai solusi, mulai dari rangkaian spekulatif Google hingga teknik kompresi baru. Kini, penelitian Tencent mengusulkan solusi yang lebih radikal.

Makalah ini mengusulkan cetak biru untuk kelas baru model bahasa yang sangat efisien dan hambatan kecepatan yang disebabkan oleh token.

Tujuannya adalah mengubah unit prediksi secara mendasar dari token tunggal dengan informasi rendah menjadi sesuatu yang jauh lebih kaya.

Paradigma Baru: Memprediksi Vektor, bukan Token

Secara langsung tantangan terhadap status quo AI generatif, CALM mengubah seluruh tugas prediksi. Para peneliti mengusulkan sumbu penskalaan baru untuk LLM.

“Kami berpendapat bahwa mengatasi kemacetan ini memerlukan sumbu desain baru untuk penskalaan LLM: meningkatkan bandwidth semantik dari setiap langkah generatif,” tulis mereka dalam makalah tersebut.

Dengan meningkatkan “bandwidth semantik” ini, model dapat memproses lebih banyak informasi dalam satu langkah. CALM mencapai hal ini melalui proses dua tahap inovatif yang beroperasi dalam ruang kontinu, bukan ruang terpisah.

Inti dari desain CALM adalah autoencoder dengan fidelitas tinggi. Komponen ini belajar mengompresi sekumpulan K token – misalnya, empat token – menjadi satu vektor kontinu padat.

Yang terpenting, komponen ini dapat merekonstruksi token asli dari vektor ini dengan akurasi lebih dari 99,9%. Model bahasa terpisah kemudian melakukan prediksi autoregresif dalam ruang vektor baru ini.

Menurut dokumentasi resmi proyek, “daripada memprediksi satu token terpisah pada satu waktu, CALM belajar memprediksi satu vektor kontinu yang mewakili seluruh potongan K token.”

Hal ini mengurangi jumlah langkah generatif sebanyak a faktor K, sehingga menghasilkan peningkatan efisiensi yang signifikan.

Perangkat Bebas Kemungkinan: Bagaimana CALM Mempelajari dan Mengukur Keberhasilan

Beralih dari token diskrit ke vektor kontinu menimbulkan tantangan besar: model tidak dapat lagi menghitung distribusi probabilitas eksplisit atas semua kemungkinan hasil menggunakan lapisan softmax standar.

Hal ini membuat metode pelatihan dan evaluasi tradisional, yang mengandalkan penghitungan kemungkinan, tidak dapat diterapkan. Untuk mengatasi hal ini, tim Tencent mengembangkan kerangka kerja yang komprehensif dan bebas kemungkinan.

Untuk pelatihan, CALM menggunakan metode Pelatihan Berbasis Energi, yang menggunakan aturan penilaian yang tepat untuk memandu model tanpa perlu menghitung probabilitas.

Untuk evaluasi, para peneliti memperkenalkan metrik baru yang disebut BrierLM. Beralih dari metrik tradisional seperti kebingungan, BrierLM berasal dari skor Brier, sebuah alat dari perkiraan probabilistik.

Hal ini memungkinkan perbandingan kemampuan model yang adil dan berdasarkan sampel dengan memeriksa seberapa baik prediksi selaras dengan kenyataan, sebuah metode yang sangat cocok untuk model di mana kemungkinan sulit dilakukan.

Sumbu Baru untuk Penskalaan AI dan Perlombaan untuk Efisiensi

Dampak praktis dari arsitektur baru ini adalah trade-off komputasi kinerja yang unggul.

Model CALM mengurangi persyaratan komputasi pelatihan sebesar 44% dan inferensi sebesar 33% dibandingkan dengan dasar yang kuat. Hal ini menunjukkan bahwa penskalaan bandwidth semantik pada setiap langkah merupakan pendorong baru yang kuat untuk meningkatkan efisiensi komputasi.

Pekerjaan ini menempatkan CALM sebagai pesaing utama dalam perlombaan di seluruh industri untuk membangun AI yang lebih cepat, lebih murah, dan lebih mudah diakses.

Google telah mengatasi masalah kecepatan AI dengan metode seperti kaskade spekulatif dan Pembelajaran Bersarang. Startup lain, seperti Inception, mengeksplorasi arsitektur yang sangat berbeda seperti LLM berbasis difusi dalam “Mercury Coder” untuk menghindari “hambatan struktural”akibat autoregresi.

Bersama-sama, beragam pendekatan ini menyoroti pergeseran dalam pengembangan AI. Industri ini beralih dari fokus murni pada skala ke upaya berkelanjutan menuju kecerdasan buatan yang lebih cerdas dan lebih ekonomis. Pendekatan berbasis vektor CALM menawarkan jalur baru dalam hal tersebut.

Categories: IT Info