Seorang penyelidik Samsung AI di Montreal telah mencipta model AI kecil yang menumbuk jauh di atas beratnya, mencabar fokus industri pada skala besar. Dikeluarkan minggu ini, model rekursif kecil 7 juta parameter (TRM) mengatasi model gergasi seperti Gemini 2.5 Pro Google pada teka-teki yang sukar. Target=”_ Blank”> Terperinci dalam kertas yang diterbitkan pada arxiv , bertujuan untuk membuktikan bahawa reka bentuk pintar boleh menjadi lebih penting daripada saiz semata-mata. Ia menggunakan proses”rekursif”yang mudah untuk berfikir dalam gelung dan memperbaiki jawapannya sendiri, menawarkan jalan yang lebih efisien untuk inovasi.

Pendekatan ini mempersoalkan keperluan untuk model yang besar dan mahal untuk menyelesaikan masalah AI yang keras. Seperti yang dinyatakan oleh Jolicoeur-Martineau,”Idea bahawa seseorang harus bergantung pada model asas besar yang dilatih untuk berjuta-juta dolar oleh beberapa perbadanan besar untuk menyelesaikan tugas-tugas keras adalah perangkap.”Pelepasan ini menandakan pergerakan yang semakin meningkat ke arah model yang lebih kecil dan khusus.

dari hierarki kompleks kepada kesederhanaan rekursif

trm berevolusi dari

TRM menggunakan hanya satu rangkaian dua lapisan kecil. Ia membekalkan analogi biologi dan ketergantungan tetap, menjadikan seni bina lebih telus. Matlamatnya adalah untuk mengasingkan mekanisme teras: peningkatan rekursif.

Inovasi teras adalah proses penalarannya. Model ini bermula dengan jawapan yang kasar dan menapisnya secara beransur-ansur. Dalam setiap gelung, ia mula-mula mengemas kini”proses pemikiran”dalamannya sebelum mengemas kini jawapan terakhirnya, dengan berkesan mensimulasikan rangkaian yang lebih mendalam tanpa kos yang tinggi. Ini membolehkan ia mempelajari rantaian pemikiran yang kompleks dan pelbagai langkah yang biasanya memerlukan model yang lebih besar.

Seperti yang dijelaskan oleh kertas penyelidikan,”Proses rekursif ini membolehkan model secara progresif meningkatkan jawapannya… dengan cara yang sangat cekap parameter sambil meminimumkan overfitting.”Kaedah ini meningkatkan prestasi dan mengelakkan isu-isu model yang lebih besar pada dataset kecil.

Menumbuk di atas beratnya pada penanda aras penalaran Pencapaiannya yang menonjol datang pada Corpus Abstrak dan Penalaran (ARC-AGI), satu suite teka-teki visual yang mencabar yang mudah untuk manusia tetapi terkenal sukar untuk AI.

Pada versi pertama ujian, ARC-AGI-1, TRM mencapai ketepatan 45%. Skor ini melampaui banyak kelas berat industri, termasuk Google’s Gemini 2.5 Pro (37.0%), Openai’s O3-mini-tinggi (34.5%), dan Deepseek R1 (15.8%), walaupun TRM mempunyai kelebihan. Di sini, TRM menjaringkan 7.8%, sekali lagi mengalahkan Gemini 2.5 Pro 4.9%dan 3.0%O3-mini-tinggi. Walaupun skor mutlak ini mungkin kelihatan rendah, mereka mewakili lonjakan yang ketara ke hadapan pada penanda aras di mana kemajuan telah menjadi perlahan.

Untuk konteks, Menunjukkan kuasa pendekatan rekursifnya Hebatnya adalah kecekapan model. Model keseluruhan dilatih dalam masa dua hari pada empat GPU NVIDIA H-100 untuk di bawah $ 500, seperti yang disahkan oleh penyelidik. Ini berbeza dengan latihan latihan berjuta-juta dolar yang diperlukan untuk perbatasan hari ini. href=”https://twitter.com/jm_alexia/status/1975586932391313464?ref_src=twsrc%5etfw”sasaran=”_ blank”Penalaran rekursif, ternyata’kurang lebih’. Keberkesanan kos ini mendemokrasikan penyelidikan AI canggih.

Temuan bahawa rangkaian yang lebih kecil, dua lapisan mengatasi versi yang lebih besar juga mencabar undang-undang skala konvensional. Makalah ini menunjukkan bahawa ini adalah kerana kedalaman rekursif membantu mencegah overfitting, masalah biasa apabila melatih model besar pada data yang terhad. (TRM).

Beberapa bulan yang lalu, HRM membuat gelombang besar dalam komuniti penyelidikan AI kerana ia menunjukkan prestasi yang sangat baik pada cabaran ARC walaupun saiz kecilnya 27m. (Itu kira-kira 22x lebih kecil daripada… pic.twitter.com/yhmpn4hlxi href=”https://twitter.com/rasbt/status/19759222614389408022?ref_src=twsrc%5etfw”target=”_ blank”href=”https://github.com/samsungsailmontreal/tinyrecursivemodels”target=”_ blank”> pada github di bawah lesen MIT permisif , yang membolehkan penggunaan komersial dan menggalakkan Konteks TRM. Tugas-tugas tertentu. pada 2 H100s selama 2 hari.

[Latihan dan ujian spesifikasi]… pic.twitter.com/9c31hdxily href=”https://twitter.com/deedydas/status/1976105366003044488?ref_src=twsrc%5etfw”Target=”_ Blank”Konsep bukti yang kuat untuk perusahaan. Penyelidikan.

Categories: IT Info