Konsortium universiti dan penyelidik Amazon telah melancarkan seni bina AI baru, Transformer Berasaskan Tenaga (EBT). Ia direka untuk melengkapkan model dengan lebih banyak kemahiran analisis seperti manusia. Pendekatan ini bertujuan untuk menanamkan”sistem 2 berfikir”ke dalam AI, yang sering bergantung pada pengiktirafan corak yang cepat dan intuitif. Ia bermula dengan penyelesaian rawak dan secara beransur-ansur meningkatkannya untuk meminimumkan skor”tenaga”yang dikira. Walaupun keputusan awal mencadangkan EBTs boleh menjadi lebih cekap data, kaedah ini memerlukan lebih banyak pengiraan. Ini mencabar paradigma semasa pembangunan AI. Kerja ini boleh didapati di A halaman projek dan
Dari intuisi ke analisis: Pencarian untuk’Sistem 2’AI
Kecekapan data yang lebih baik adalah sangat penting. Ia menunjukkan bahawa pada skala, EBT dapat mencapai prestasi yang sama seperti pengubah standard semasa latihan pada data yang kurang. Dalam era di mana industri menghampiri had data latihan berkualiti tinggi yang terdapat di web, membangunkan lebih banyak arsitektur yang cekap data adalah matlamat strategik kritikal untuk kemajuan AI yang berterusan.
Pertama, model ini dapat melakukan lebih banyak langkah-langkah penghalusan berulang pada ramalan tunggal, dengan berkesan mendedikasikan lebih banyak pengiraan kepada masalah yang sukar. Kedua, ia boleh menjana beberapa jawapan calon dan menggunakan fungsi tenaga dalamannya untuk mengesahkan diri sendiri dan memilih yang mempunyai tenaga terendah, yang menunjukkan keserasian tertinggi. Rangsangan prestasi ini paling ketara pada tugas-tugas tugas-tugas yang tidak disediakan (OOD) yang berbeza dari data latihan. Dengan”berfikir”lebih lama pada kesimpulan, EBT meningkatkan prestasi tugas bahasa sehingga 29%. Ini menunjukkan proses berulang membolehkan mereka untuk membuat alasan lebih mantap dalam situasi novel di mana model standard mungkin bergantung pada pencocokan corak yang cacat. Latihan model-model ini kini memerlukan antara 3.3 dan 6.6 kali lebih banyak operasi terapung (flop) daripada transformer standard. Overhead besar ini bukan sekadar kebimbangan teoritis; Ia menimbulkan halangan yang ketara kepada pengangkatan, yang berpotensi mengehadkan penyelidikan dan pembangunan EBT hanya kepada makmal akademik yang paling dibiayai dan syarikat teknologi besar dengan sumber pengiraan yang luas. Tidak seperti lulus ke hadapan tunggal model standard, setiap langkah penghalusan dalam EBT melibatkan perhitungan kecerunan kompleks untuk menentukan arah’pemikiran’seterusnya. Proses ini, yang memerlukan pengiraan derivatif pesanan kedua (atau anggaran yang cekap seperti produk vektor Hessian), secara asasnya lebih intensif. Pasukan itu mengakui ini adalah bidang utama untuk kerja pengoptimuman masa depan, kerana membuat proses’pemikiran’ini lebih murah adalah penting untuk penggunaan praktikal.
Selain itu, eksperimen awal dijalankan pada model dengan sehingga 800 juta parameter. Ini adalah sebahagian kecil daripada saiz sistem AI terbesar hari ini, yang sering melebihi beratus-ratus bilion parameter. Menggalakkan seni bina oleh perintah magnitud amat sukar, sering mendedahkan cabaran yang tidak diduga seperti ketidakstabilan latihan atau landskap tenaga yang menjadi terlalu kompleks untuk menavigasi dengan berkesan. Oleh itu, ia tetap menjadi persoalan terbuka sama ada manfaat prestasi yang diperhatikan pada skala yang lebih kecil ini akan memegang, atau bahkan menguatkan, apabila diterapkan pada model sempadan. Jawapannya mungkin bergantung kepada permohonan. Untuk tugas-tugas saintifik atau analisis yang tinggi, harga boleh dibenarkan, tetapi untuk kegunaan umum, analisis kos-manfaat tetap menjadi isu yang kritikal dan tidak dapat diselesaikan. Beberapa syarikat menangani cabaran ini dari sudut yang berbeza, menonjolkan keperluan kritikal untuk mengurangkan kos besar yang berkaitan dengan AI berskala besar.
Kaedah bersaing ini menangani kecekapan pada peringkat yang berbeza. Compactifai Multiverse memampatkan model statik itu sendiri. NAMM Sakana mengoptimumkan cache KV dinamik semasa kesimpulan. Bamba IBM menggunakan seni bina hibrid untuk mempercepatkan pemprosesan urutan.
Sebaliknya, EBTS secara asasnya mengubah mekanisme ramalan itu sendiri. Daripada hanya mengoptimumkan model siap atau ingatannya, EBTS mengintegrasikan proses”berfikir”secara langsung ke dalam bagaimana setiap ramalan dibentuk, bertujuan untuk penyebaran dan penalaran yang lebih baik dari bawah ke atas.
Ketua Pegawai Eksekutifnya, Enrique Lizaso Olmos, menyatakan,”Kebijaksanaan yang berlaku ialah LLM yang mengecil datang dengan kos. Multiverse mengubahnya.”Sementara itu, model Bamba IBM mensasarkan kelajuan kesimpulan.
Projek IBM memimpin Raghu Ganti menjelaskan strategi itu:”Semuanya kembali kepada pengurangan cache KV… lebih banyak throughput, latency yang lebih rendah, panjang konteks yang lebih panjang.”Inovasi lain, seperti sistem pengoptimuman memori Sakana AI, juga bertujuan untuk menjadikan transformer lebih cekap. Penyelidik Sakana mendapati bahawa”evolusi secara semulajadi mengatasi kebolehpercayaan operasi pengurusan ingatan kami, yang melibatkan hasil’ingat’atau’lupa’binari.”Apabila model berkembang, industri berlumba untuk mencari cara yang mampan untuk melatih dan menggunakannya. Penyelidik EBT percaya kerja mereka adalah bahagian utama masa depan ini, menyimpulkan bahawa”EBTS adalah paradigma baru yang menjanjikan untuk meningkatkan keupayaan pembelajaran dan pemikiran model.”