Konsortium universiti dan penyelidik Amazon telah melancarkan seni bina AI baru, Transformer Berasaskan Tenaga (EBT). Ia direka untuk melengkapkan model dengan lebih banyak kemahiran analisis seperti manusia. Pendekatan ini bertujuan untuk menanamkan”sistem 2 berfikir”ke dalam AI, yang sering bergantung pada pengiktirafan corak yang cepat dan intuitif. Ia bermula dengan penyelesaian rawak dan secara beransur-ansur meningkatkannya untuk meminimumkan skor”tenaga”yang dikira. Walaupun keputusan awal mencadangkan EBTs boleh menjadi lebih cekap data, kaedah ini memerlukan lebih banyak pengiraan. Ini mencabar paradigma semasa pembangunan AI. Kerja ini boleh didapati di A halaman projek dan

Dari intuisi ke analisis: Pencarian untuk’Sistem 2’AI

Senibina EBT mewakili peralihan asas dari paradigma AI yang dominan. Model-model yang paling terkini, termasuk transformer standard, cemerlang di

Di tengah-tengahnya, ramalan EBT sebagai teka-teki pengoptimuman. Transformer standard mengambil input dan menghasilkan output dalam satu, lulus ke hadapan deterministik. Sebaliknya, EBT mempelajari”landskap tenaga”yang kompleks dan tinggi untuk semua ramalan yang mungkin berkaitan dengan konteks yang diberikan. Ia kemudian menggunakan prinsip keturunan kecerunan untuk memperbaiki secara beransur-ansur meneka ini, pada dasarnya”berjalan”ia menurun pada landskap tenaga yang dipelajari sehingga ia menetap di titik terendah, atau”Lembah Tenaga.”Proses penghalusan berulang ini adalah teras mekanisme”pemikiran”EBT. Ia membolehkan model untuk meneroka ruang penyelesaian yang berpotensi dan bukannya dikunci ke dalam satu laluan.

Pendekatan ini direka untuk merangkumi tiga aspek utama kognisi sering tidak hadir dalam model standard. Yang pertama adalah peruntukan pengiraan dinamik. Untuk masalah yang mudah, model mungkin mendapati tenaga minimum hanya dalam beberapa langkah. Untuk yang kompleks, ia boleh mengambil lebih banyak langkah, dengan berkesan membelanjakan lebih banyak”pemikiran”mengenai masalah itu.

Aspek kedua adalah keupayaan untuk memodelkan ketidakpastian. Landskap tenaga yang lancar dengan satu minimum yang jelas menunjukkan kepastian yang tinggi. Landskap lasak dengan banyak lembah tempatan menunjukkan model itu tidak pasti, kerana banyak jawapan yang munasabah wujud. Ini memberikan pemahaman yang lebih baik tentang keyakinan model sendiri.

Ketiga, seni bina termasuk mekanisme intrinsik untuk pengesahan ramalan. Skor tenaga akhir ramalan berfungsi sebagai pemeriksaan kualiti terbina dalam. Skor yang rendah menunjukkan jawapan yang berkualiti tinggi, disahkan, sementara skor tinggi menandakan yang miskin, semuanya tanpa memerlukan model pengesahan yang berasingan.

Dengan mengintegrasikan ketiga-tiga keupayaan ini, EBT bertujuan untuk mewujudkan bentuk penalaran yang lebih mantap dan umum. Ia bergerak melampaui penjanaan corak mudah ke proses pemecahan masalah yang aktif, berulang, menandakan langkah konseptual yang signifikan dalam usaha untuk kecerdasan buatan yang lebih berkemampuan.

Walaupun pengubah standard mesti mempelajari laluan langsung kepada jawapan, EBT belajar untuk menjaringkan’ketepatan’dari mana-mana jawapan yang diberikan-tugas yang lebih mudah yang muncul untuk umum dengan lebih berkesan. Kertas mereka melaporkan bahawa skala EBTS lebih cekap daripada transformer++ baseline yang maju, menunjukkan sehingga kadar skala 35% lebih tinggi berkenaan dengan data.

Kecekapan data yang lebih baik adalah sangat penting. Ia menunjukkan bahawa pada skala, EBT dapat mencapai prestasi yang sama seperti pengubah standard semasa latihan pada data yang kurang. Dalam era di mana industri menghampiri had data latihan berkualiti tinggi yang terdapat di web, membangunkan lebih banyak arsitektur yang cekap data adalah matlamat strategik kritikal untuk kemajuan AI yang berterusan.

Pertama, model ini dapat melakukan lebih banyak langkah-langkah penghalusan berulang pada ramalan tunggal, dengan berkesan mendedikasikan lebih banyak pengiraan kepada masalah yang sukar. Kedua, ia boleh menjana beberapa jawapan calon dan menggunakan fungsi tenaga dalamannya untuk mengesahkan diri sendiri dan memilih yang mempunyai tenaga terendah, yang menunjukkan keserasian tertinggi. Rangsangan prestasi ini paling ketara pada tugas-tugas tugas-tugas yang tidak disediakan (OOD) yang berbeza dari data latihan. Dengan”berfikir”lebih lama pada kesimpulan, EBT meningkatkan prestasi tugas bahasa sehingga 29%. Ini menunjukkan proses berulang membolehkan mereka untuk membuat alasan lebih mantap dalam situasi novel di mana model standard mungkin bergantung pada pencocokan corak yang cacat. Latihan model-model ini kini memerlukan antara 3.3 dan 6.6 kali lebih banyak operasi terapung (flop) daripada transformer standard. Overhead besar ini bukan sekadar kebimbangan teoritis; Ia menimbulkan halangan yang ketara kepada pengangkatan, yang berpotensi mengehadkan penyelidikan dan pembangunan EBT hanya kepada makmal akademik yang paling dibiayai dan syarikat teknologi besar dengan sumber pengiraan yang luas. Tidak seperti lulus ke hadapan tunggal model standard, setiap langkah penghalusan dalam EBT melibatkan perhitungan kecerunan kompleks untuk menentukan arah’pemikiran’seterusnya. Proses ini, yang memerlukan pengiraan derivatif pesanan kedua (atau anggaran yang cekap seperti produk vektor Hessian), secara asasnya lebih intensif. Pasukan itu mengakui ini adalah bidang utama untuk kerja pengoptimuman masa depan, kerana membuat proses’pemikiran’ini lebih murah adalah penting untuk penggunaan praktikal.

Selain itu, eksperimen awal dijalankan pada model dengan sehingga 800 juta parameter. Ini adalah sebahagian kecil daripada saiz sistem AI terbesar hari ini, yang sering melebihi beratus-ratus bilion parameter. Menggalakkan seni bina oleh perintah magnitud amat sukar, sering mendedahkan cabaran yang tidak diduga seperti ketidakstabilan latihan atau landskap tenaga yang menjadi terlalu kompleks untuk menavigasi dengan berkesan. Oleh itu, ia tetap menjadi persoalan terbuka sama ada manfaat prestasi yang diperhatikan pada skala yang lebih kecil ini akan memegang, atau bahkan menguatkan, apabila diterapkan pada model sempadan. Jawapannya mungkin bergantung kepada permohonan. Untuk tugas-tugas saintifik atau analisis yang tinggi, harga boleh dibenarkan, tetapi untuk kegunaan umum, analisis kos-manfaat tetap menjadi isu yang kritikal dan tidak dapat diselesaikan. Beberapa syarikat menangani cabaran ini dari sudut yang berbeza, menonjolkan keperluan kritikal untuk mengurangkan kos besar yang berkaitan dengan AI berskala besar.

Kaedah bersaing ini menangani kecekapan pada peringkat yang berbeza. Compactifai Multiverse memampatkan model statik itu sendiri. NAMM Sakana mengoptimumkan cache KV dinamik semasa kesimpulan. Bamba IBM menggunakan seni bina hibrid untuk mempercepatkan pemprosesan urutan.

Sebaliknya, EBTS secara asasnya mengubah mekanisme ramalan itu sendiri. Daripada hanya mengoptimumkan model siap atau ingatannya, EBTS mengintegrasikan proses”berfikir”secara langsung ke dalam bagaimana setiap ramalan dibentuk, bertujuan untuk penyebaran dan penalaran yang lebih baik dari bawah ke atas.

Ketua Pegawai Eksekutifnya, Enrique Lizaso Olmos, menyatakan,”Kebijaksanaan yang berlaku ialah LLM yang mengecil datang dengan kos. Multiverse mengubahnya.”Sementara itu, model Bamba IBM mensasarkan kelajuan kesimpulan.

Projek IBM memimpin Raghu Ganti menjelaskan strategi itu:”Semuanya kembali kepada pengurangan cache KV… lebih banyak throughput, latency yang lebih rendah, panjang konteks yang lebih panjang.”Inovasi lain, seperti sistem pengoptimuman memori Sakana AI, juga bertujuan untuk menjadikan transformer lebih cekap. Penyelidik Sakana mendapati bahawa”evolusi secara semulajadi mengatasi kebolehpercayaan operasi pengurusan ingatan kami, yang melibatkan hasil’ingat’atau’lupa’binari.”Apabila model berkembang, industri berlumba untuk mencari cara yang mampan untuk melatih dan menggunakannya. Penyelidik EBT percaya kerja mereka adalah bahagian utama masa depan ini, menyimpulkan bahawa”EBTS adalah paradigma baru yang menjanjikan untuk meningkatkan keupayaan pembelajaran dan pemikiran model.”