Penyelidik di Tencent AI Lab telah melancarkan rangka kerja AI baru yang direka untuk menghancurkan had kelajuan model bahasa besar semasa. Ia secara langsung mencabar proses yang perlahan, token-by-token yang kuasa paling generatif AI hari ini.
Daripada meramalkan satu sekeping kecil perkataan pada satu masa, tenang belajar untuk meramalkan vektor tunggal yang mewakili keseluruhan teks. Kaedah ini boleh menjadikan generasi AI lebih cepat dan lebih cekap, membuka laluan baru untuk model skala.
Bottleneck
Kelemahan asas LLM moden adalah pergantungan mereka terhadap generasi autoregressive, token-by-token. Ketergantungan berturut-turut ini adalah satu kesesakan yang paling besar yang mengehadkan kelajuan dan skalabiliti AI.
Menjana artikel panjang memerlukan beribu-ribu langkah ramalan berurutan, menjadikan proses pengiraan mahal dan lambat. Ini bukan sekadar masalah akademik; Itulah sebabnya menggunakan model yang kuat adalah penjanaan yang mahal dan masa nyata, jangka panjang tetap menjadi cabaran.
Masalah kecekapan ini telah menjadi medan pertempuran utama bagi pemaju AI. Seperti yang dinyatakan oleh Google Research,”Seperti yang kita gunakan model-model ini kepada lebih banyak pengguna, menjadikannya lebih cepat dan lebih murah tanpa mengorbankan kualiti adalah cabaran kritikal.”
Industri ini telah meneroka pelbagai penyelesaian, dari cascade spekulasi Google ke teknik mampatan baru. Sekarang, kerja Tencent mencadangkan penyelesaian yang lebih radikal.
Makalah ini mencadangkan pelan tindakan untuk kelas baru model bahasa yang sangat cekap dan token yang disebabkan oleh
Vektor bukan token
Dalam cabaran langsung kepada status quo ai generatif, tenang semula tugas ramalan sepenuhnya. Para penyelidik mencadangkan untuk paksi skala baru untuk LLMS. Tenang mencapai ini melalui proses dua peringkat yang inovatif yang beroperasi dalam ruang yang berterusan, bukan diskret.
Di tengah-tengah reka bentuk Calm adalah autoencoder kesetiaan tinggi. Komponen ini belajar untuk memampatkan sebahagian token K-contohnya, empat token-ke dalam satu vektor berterusan yang padat. Model bahasa yang berasingan kemudian melakukan ramalan autoregressive di ruang vektor baru ini.
Token.”
Ini mengurangkan bilangan langkah generatif dengan faktor k, yang membawa kepada keuntungan kecekapan yang signifikan. Hasil menggunakan lapisan SoftMax standard.
Ini menjadikan kaedah latihan dan penilaian tradisional, yang bergantung pada kemungkinan pengiraan, tidak dapat digunakan. Untuk menyelesaikannya, pasukan Tencent telah membangunkan rangka kerja yang komprehensif dan bebas. Beralih dari metrik tradisional seperti kebingungan, BrierlM berasal dari skor brier, alat dari ramalan probabilistik.
Kecekapan
Impak praktikal seni bina baru ini adalah trade-off kompute prestasi yang unggul.
Model yang tenang mengurangkan keperluan pengiraan latihan sebanyak 44% dan kesimpulan sebanyak 33% berbanding dengan garis dasar yang kuat. Ini menunjukkan bahawa skala jalur lebar semantik setiap langkah adalah tuas baru yang kuat untuk meningkatkan kecekapan pengiraan. Permulaan lain, seperti permulaan, sedang meneroka arkitek yang sama sekali berbeza seperti LLMs berasaskan penyebaran dalam href=”https://chat.inceptionlabs.ai”target=”_ blank”>”Mercury coder”Industri ini bergerak dari fokus murni pada skala untuk mengejar kecerdasan buatan yang lebih mampan, lebih baik dari segi ekonomi. Pendekatan berasaskan vektor Calm menawarkan jalan baru ke hadapan di hadapan.