Konsorsium peneliti universitas dan Amazon telah meluncurkan arsitektur AI baru, transformator berbasis energi (EBT). Ini dirancang untuk melengkapi model dengan lebih banyak keterampilan analitik seperti manusia. Pendekatan ini bertujuan untuk menanamkan”pemikiran sistem 2″ke dalam AI, yang sering bergantung pada pengenalan pola yang cepat dan intuitif.

Detail dalam a Kertas penelitian baru Model EBT, EBT Models, target=”_ blank”> Kertas penelitian baru Model EBTS, EBT Models, Target=”_ blank”> Kertas penelitian baru Model EBTS, EBORS MODELS AREKSIONS AKURIONAL AKIT Dimulai dengan solusi acak dan secara bertahap meningkatkannya untuk meminimalkan skor”energi”yang dihitung. Sementara hasil awal menunjukkan EBTS bisa lebih efisien data, metode ini membutuhkan lebih banyak komputasi.

Pertanyaan inti proyek, sebagaimana diajukan oleh para peneliti, adalah:”Apakah mungkin untuk menggeneralisasi pendekatan pemikiran sistem 2 ini, dan mengembangkan model yang belajar untuk berpikir semata-mata dari pembelajaran yang tidak diawasi?”Ini menantang paradigma pengembangan AI saat ini. Pekerjaan ini tersedia di halaman proyek dan github .”SRC=”Data: Image/SVG+XML; Nitro-EMPTY-ID=MTY0MDOXMTY4-1; BASE64, PHN2ZYB2AWV3QM94PSIWIDAGMTI4MCA0MJ Eiihdpzhropsixmjgwiibozwlnahq9ijqymsigeg1sbnm9iMh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

dari intuisi ke analisis: pencarian untuk ‘sistem 2’ ai

Arsitektur EBT merupakan perubahan mendasar dari paradigma AI yang dominan. Sebagian besar model saat ini, termasuk transformator standar, excel di

Pada intinya, EBT membingkai ulang prediksi sebagai teka-teki optimasi. Transformator standar mengambil input dan menghasilkan output dalam lulus maju tunggal, deterministik. Sebaliknya, EBT mempelajari”lanskap energi”yang kompleks dan dimensi tinggi untuk semua prediksi yang mungkin terkait dengan konteks yang diberikan.

Alih-alih secara langsung menghasilkan jawaban, model dimulai dengan tebakan acak dan berisik. Ini kemudian menggunakan prinsip-prinsip keturunan gradien untuk secara iteratif memperbaiki tebakan ini, pada dasarnya “berjalan” menuruni lanskap energi yang dipelajari sampai menetap di titik serendah mungkin, atau “Lembah Energi.”

Keadaan energi terendah ini mewakili jawaban yang paling masuk akal dan koheren. Proses penyempurnaan berulang ini adalah inti dari mekanisme”pemikiran”EBT. Ini memungkinkan model untuk mengeksplorasi ruang solusi potensial daripada dikunci ke dalam satu jalur.

Pendekatan ini dirancang untuk mewujudkan tiga aspek utama kognisi yang sering tidak ada dalam model standar. Yang pertama adalah alokasi perhitungan dinamis. Untuk masalah sederhana, model mungkin menemukan minimum energi hanya dalam beberapa langkah. Untuk yang kompleks, ini dapat mengambil lebih banyak langkah, secara efektif menghabiskan lebih banyak”pemikiran”untuk masalah tersebut.

Faset kedua adalah kemampuan untuk memodelkan ketidakpastian. Lansekap energi yang halus dengan satu minimum yang jelas menunjukkan kepastian yang tinggi. Lansekap yang kasar dengan banyak lembah lokal menunjukkan bahwa model ini tidak pasti, karena ada banyak jawaban yang masuk akal. Ini memberikan pemahaman yang lebih bernuansa tentang kepercayaan diri model itu sendiri.

Ketiga, arsitektur mencakup mekanisme intrinsik untuk verifikasi prediksi. Skor energi akhir dari prediksi berfungsi sebagai pemeriksaan kualitas bawaan. Skor rendah menunjukkan jawaban yang berkualitas tinggi dan terverifikasi, sedangkan skor tinggi menandakan miskin, semuanya tanpa memerlukan model verifier terpisah.

Dengan mengintegrasikan ketiga kemampuan ini, EBT bertujuan untuk menciptakan bentuk penalaran yang lebih kuat dan digeneralisasikan. Ini bergerak melampaui generasi pola yang sederhana ke proses penyelesaian masalah aktif dan berulang, menandai langkah konseptual yang signifikan dalam pencarian untuk kecerdasan buatan yang lebih mampu.

bagaimana transformator berbasis energi ‘pikirkan’

Para peneliti mengklaim pendekatan ini menghasilkan kelebihan skala yang signifikan, yang menarik mereka lebih dari awal. Sementara transformator standar harus mempelajari jalur langsung ke jawaban, EBT belajar untuk mencetak’kebenaran’dari setiap jawaban yang diberikan-tugas yang lebih sederhana yang tampaknya menggeneralisasi lebih efektif. Makalah mereka melaporkan bahwa skala EBTS lebih efisien daripada baseline Transformer ++ canggih, menunjukkan hingga 35% lebih tinggi skala penskalaan sehubungan dengan data.

Peningkatan efisiensi data sangat penting. Ini menunjukkan bahwa pada skala, EBT dapat mencapai kinerja yang sama dengan transformator standar sementara pelatihan tentang data yang jauh lebih sedikit. Di era di mana industri mendekati batas data pelatihan berkualitas tinggi yang tersedia di web, mengembangkan lebih banyak arsitektur yang efisien data adalah tujuan strategis yang kritis untuk kemajuan AI yang berkelanjutan.

“Pemikiran”seperti itu bermanifestasi dalam dua cara utama selama inferensi. Pertama, model dapat melakukan lebih banyak langkah penyempurnaan berulang pada prediksi tunggal, secara efektif mendedikasikan lebih banyak komputasi untuk masalah yang sulit. Kedua, dapat menghasilkan beberapa jawaban kandidat dan menggunakan fungsi energi internal untuk memverifikasi sendiri dan memilih yang dengan energi terendah, menunjukkan kompatibilitas tertinggi. Peningkatan kinerja ini paling menonjol pada tugas di luar distribusi (OOD)-masalah yang berbeda dari data pelatihan.

Penulis utama Alexi Gladstone menyatakan bahwa”transformator berbasis energi adalah pendekatan pertama untuk mengungguli transformator umpan-maju di seluruh modalitas dan sehubungan dengan beberapa sumbu termasuk data, kedalaman, paramet, dll.”Dengan”berpikir”lebih lama pada inferensi, EBTS meningkatkan kinerja tugas bahasa hingga 29%. Ini menunjukkan bahwa proses berulang memungkinkan mereka untuk beralasan lebih kuat dalam situasi baru di mana model standar mungkin bergantung pada pencocokan pola yang cacat.

kinerja yang menjanjikan, tetapi dengan biaya yang signifikan

Meskipun ada hasil yang menjanjikan, arsitektur EBT menghadapi rintangan utama: biaya komputasi. Melatih model-model ini saat ini membutuhkan operasi poin mengambang antara 3,3 dan 6,6 kali lebih banyak daripada transformer standar. Overhead yang substansial ini bukan hanya masalah teoretis; Ini menimbulkan hambatan yang signifikan untuk adopsi, berpotensi membatasi penelitian dan pengembangan EBT hanya untuk laboratorium akademik yang paling didanai dan perusahaan teknologi besar dengan sumber daya komputasi yang luas.

Persyaratan kegagalan yang tinggi berasal langsung dari proses optimasi berulang pada inti desain EBT. Tidak seperti umpan maju tunggal model standar, setiap langkah penyempurnaan dalam EBT melibatkan perhitungan gradien yang kompleks untuk menentukan arah’pemikiran’berikutnya. Proses ini, yang membutuhkan penghitungan derivatif orde kedua (atau perkiraan efisien seperti produk vektor hessian), pada dasarnya lebih intensif. Tim mengakui ini adalah bidang utama untuk pekerjaan optimisasi di masa depan, karena membuat proses’berpikir’ini lebih murah sangat penting untuk penyebaran praktis.

Selain itu, percobaan awal dilakukan pada model hingga 800 juta parameter. Ini adalah sebagian kecil dari ukuran sistem AI terbesar saat ini, yang sering melebihi ratusan miliar parameter. Meningkatkan arsitektur atas perintah besarnya sangat sulit, sering kali mengungkapkan tantangan yang tidak terduga seperti ketidakstabilan pelatihan atau lanskap energi yang menjadi terlalu rumit untuk dinavigasi secara efektif. Oleh karena itu, masih merupakan pertanyaan terbuka apakah manfaat kinerja yang diamati pada skala yang lebih kecil ini akan berlaku, atau bahkan memperkuat, ketika diterapkan pada model perbatasan.

Pada akhirnya, EBT menghadirkan pertukaran mendasar bagi komunitas AI: apakah potensi untuk penalaran yang lebih kuat, seperti manusia yang bernilai beberapa lipat dalam peningkatan pelatihan dan biaya inferensi? Jawabannya kemungkinan akan tergantung pada aplikasi. Untuk tugas-tugas ilmiah atau analitik berisiko tinggi, harganya dapat dibenarkan, tetapi untuk penggunaan tujuan umum, analisis biaya-manfaat tetap menjadi masalah yang kritis dan tidak terselesaikan.

Dorongan industri yang lebih luas untuk efisiensi AI

Konsep EBT menunjukkan dan efisiensi industri yang lebih luas. Beberapa perusahaan menangani tantangan ini dari sudut yang berbeda, menyoroti kebutuhan kritis untuk mengurangi biaya besar yang terkait dengan AI skala besar.

Metode yang bersaing ini mengatasi efisiensi pada berbagai tahap. Compactifai Multiverse memadatkan model statis itu sendiri. NAMMS Sakana mengoptimalkan cache KV dinamis selama inferensi. Bamba IBM menggunakan arsitektur hybrid untuk mempercepat pemrosesan urutan.

Sebaliknya, EBTS secara fundamental mengubah mekanisme prediksi itu sendiri. Daripada hanya mengoptimalkan model yang sudah jadi atau memorinya, EBTS mengintegrasikan proses”berpikir”secara langsung ke dalam bagaimana setiap prediksi dibentuk, bertujuan untuk generalisasi dan penalaran yang lebih baik dari bawah ke atas.

Misalnya, komputasi multiverse startup Spanyol berfokus pada kompresi model. CEO-nya, Enrique Lizaso Olmos, mencatat,”Kebijaksanaan yang berlaku adalah bahwa menyusutnya LLMS dengan biaya. Multiverse mengubahnya.”Sementara itu, model Bamba IBM menargetkan kecepatan inferensi.

Proyek IBM memimpin Raghu Ganti menjelaskan strategi:”Semuanya kembali ke pengurangan cache KV… lebih banyak throughput, latensi yang lebih rendah, panjang konteks yang lebih panjang.”Inovasi lain, seperti sistem optimasi memori Sakana AI, juga bertujuan untuk membuat transformer lebih efisien. Para peneliti Sakana menemukan bahwa”Evolusi secara inheren mengatasi non-perbedaan operasi manajemen memori kami, yang melibatkan hasil biner’ingat’atau’lupa’.”

Pendekatan yang beragam ini menunjukkan pergeseran dalam pengembangan AI. Seiring bertambahnya model, industri ini berlomba untuk menemukan cara berkelanjutan untuk melatih dan menggunakannya. Para peneliti EBT percaya pekerjaan mereka adalah bagian penting dari masa depan ini, menyimpulkan bahwa”EBT adalah paradigma baru yang menjanjikan untuk meningkatkan kemampuan belajar dan berpikir dari model.”