Seorang penyelidik Samsung AI di Montreal telah mencipta model AI kecil yang menumbuk jauh di atas beratnya, mencabar fokus industri pada skala besar. Dikeluarkan minggu ini, model rekursif kecil 7 juta parameter (TRM) mengatasi model gergasi seperti Gemini 2.5 Pro Google pada teka-teki yang sukar. Target=”_ Blank”> Terperinci dalam kertas yang diterbitkan pada arxiv , bertujuan untuk membuktikan bahawa reka bentuk pintar boleh menjadi lebih penting daripada saiz semata-mata. Ia menggunakan proses”rekursif”yang mudah untuk berfikir dalam gelung dan memperbaiki jawapannya sendiri, menawarkan jalan yang lebih efisien untuk inovasi.
Pendekatan ini mempersoalkan keperluan untuk model yang besar dan mahal untuk menyelesaikan masalah AI yang keras. Seperti yang dinyatakan oleh Jolicoeur-Martineau,”Idea bahawa seseorang harus bergantung pada model asas besar yang dilatih untuk berjuta-juta dolar oleh beberapa perbadanan besar untuk menyelesaikan tugas-tugas keras adalah perangkap.”Pelepasan ini menandakan pergerakan yang semakin meningkat ke arah model yang lebih kecil dan khusus.
dari hierarki kompleks kepada kesederhanaan rekursif
Pada versi pertama ujian, ARC-AGI-1, TRM mencapai ketepatan 45%. Skor ini melampaui banyak kelas berat industri, termasuk Google’s Gemini 2.5 Pro (37.0%), Openai’s O3-mini-tinggi (34.5%), dan Deepseek R1 (15.8%), walaupun TRM mempunyai kelebihan. Di sini, TRM menjaringkan 7.8%, sekali lagi mengalahkan Gemini 2.5 Pro 4.9%dan 3.0%O3-mini-tinggi. Walaupun skor mutlak ini mungkin kelihatan rendah, mereka mewakili lonjakan yang ketara ke hadapan pada penanda aras di mana kemajuan telah menjadi perlahan.
Untuk konteks, Menunjukkan kuasa pendekatan rekursifnya Hebatnya adalah kecekapan model. Model keseluruhan dilatih dalam masa dua hari pada empat GPU NVIDIA H-100 untuk di bawah $ 500, seperti yang disahkan oleh penyelidik. Ini berbeza dengan latihan latihan berjuta-juta dolar yang diperlukan untuk perbatasan hari ini. href=”https://twitter.com/jm_alexia/status/1975586932391313464?ref_src=twsrc%5etfw”sasaran=”_ blank”Penalaran rekursif, ternyata’kurang lebih’. Keberkesanan kos ini mendemokrasikan penyelidikan AI canggih.
Temuan bahawa rangkaian yang lebih kecil, dua lapisan mengatasi versi yang lebih besar juga mencabar undang-undang skala konvensional. Makalah ini menunjukkan bahawa ini adalah kerana kedalaman rekursif membantu mencegah overfitting, masalah biasa apabila melatih model besar pada data yang terhad. (TRM).
Beberapa bulan yang lalu, HRM membuat gelombang besar dalam komuniti penyelidikan AI kerana ia menunjukkan prestasi yang sangat baik pada cabaran ARC walaupun saiz kecilnya 27m. (Itu kira-kira 22x lebih kecil daripada… pic.twitter.com/yhmpn4hlxi href=”https://twitter.com/rasbt/status/19759222614389408022?ref_src=twsrc%5etfw”target=”_ blank”href=”https://github.com/samsungsailmontreal/tinyrecursivemodels”target=”_ blank”> pada github di bawah lesen MIT permisif , yang membolehkan penggunaan komersial dan menggalakkan Konteks TRM. Tugas-tugas tertentu. pada 2 H100s selama 2 hari.
[Latihan dan ujian spesifikasi]… pic.twitter.com/9c31hdxily href=”https://twitter.com/deedydas/status/1976105366003044488?ref_src=twsrc%5etfw”Target=”_ Blank”Konsep bukti yang kuat untuk perusahaan. Penyelidikan.