Microsoft telah memperkenalkan rStar-Math, kesinambungan dan penyempurnaan daripada rangka kerja rStar, untuk menolak sempadan model bahasa kecil (SLM) dalam penaakulan matematik.
Direka bentuk untuk menyaingi sistem yang lebih besar seperti pratonton o1 OpenAI, rStar-Math mencapai penanda aras yang luar biasa dalam penyelesaian masalah sambil menunjukkan cara model kompak boleh berprestasi pada tahap yang kompetitif. Perkembangan ini mempamerkan perubahan dalam keutamaan AI, beralih daripada meningkatkan kepada mengoptimumkan prestasi untuk tugasan tertentu.
Memajukan daripada rStar kepada rStar-Math
The rStar rangka kerja dari musim panas lalu meletakkan asas untuk meningkatkan penaakulan SLM melalui Cari Pokok Monte Carlo (MCTS), algoritma yang memperhalusi penyelesaian dengan mensimulasikan dan mengesahkan berbilang laluan.
rStar menunjukkan bahawa model yang lebih kecil boleh mengendalikan tugas yang rumit, tetapi aplikasinya kekal umum. rStar-Math membina asas ini dengan inovasi yang disasarkan yang disesuaikan untuk penaakulan matematik.
Pusat kejayaan rStar-Math ialah metodologi rantaian pemikiran (CoT) yang ditambah kodnya, di mana model menghasilkan penyelesaian dalam kedua-dua bahasa semula jadi dan kod Python boleh laku.
Struktur dwi-output ini memastikan langkah penaakulan pertengahan boleh disahkan, mengurangkan ralat dan mengekalkan ketekalan logik. Para penyelidik menekankan kepentingan pendekatan ini, dengan menyatakan,”Konsistensi bersama mencerminkan amalan manusia biasa tanpa adanya penyeliaan, di mana persetujuan di kalangan rakan sebaya mengenai jawapan yang diperoleh menunjukkan kemungkinan ketepatan yang lebih tinggi.”
Berkaitan: Model Pratonton R1-Lite DeepSeek Cina Menyasarkan Peneraju OpenAI dalam Penaakulan Automatik
Selain CoT, rStar-Math memperkenalkan Model Keutamaan Proses (PPM), yang menilai dan menyusun langkah perantaraan berdasarkan kualiti Tidak seperti sistem ganjaran tradisional yang sering bergantung pada data yang bising, PPM mengutamakan koheren dan ketepatan logik, meningkatkan lagi kebolehpercayaan model. p>
“PPM memanfaatkan fakta bahawa, walaupun nilai-Q masih tidak cukup tepat untuk menjaringkan setiap langkah penaakulan walaupun menggunakan MCTS yang meluas pelancaran, nilai-Q boleh dengan pasti membezakan langkah-langkah positif (betul) daripada langkah-langkah negatif (tidak relevan/salah).
Oleh itu kaedah latihan membina pasangan keutamaan untuk setiap langkah berdasarkan nilai-Q dan menggunakan kedudukan berpasangan kerugian untuk mengoptimumkan ramalan skor PPM untuk setiap langkah penaakulan, mencapai pelabelan yang boleh dipercayai. Pendekatan ini mengelakkan kaedah konvensional yang secara langsung menggunakan nilai-Q sebagai label ganjaran, yang sememangnya bising dan tidak tepat dalam tugasan ganjaran secara berperingkat.”
Akhir sekali, resipi evolusi diri empat pusingan yang secara progresif membina kedua-dua sempadan model dasar dan PPM dari awal.
prosedur penaakulan rSTar-Math (Sumber: kertas penyelidikan)
Prestasi Yang Mencabar Model Lebih Besar
rStar-Math menetapkan piawaian baharu dalam matematik penanda aras penaakulan, mencapai keputusan yang menyaingi, dan dalam beberapa kes mengatasi, sistem AI yang lebih besar
Pada set data GSM8K, ujian untuk penaakulan matematik, ketepatan model 7 bilion parameter bertambah baik daripada. 12.51% kepada 63.91% selepas menyepadukan rStar-Math Dalam American Invitational Mathematics Examination (AIME), model itu diselesaikan 53.3% masalah, meletakkannya dalam kalangan 20% peserta sekolah menengah teratas.
Keputusan set data MATH adalah sama mengagumkan, dengan rStar-Math mencapai kadar ketepatan 90%, mengatasi prestasi pratonton o1 OpenAI.
Prestasi rStar-Math dan LLM sempadan lain pada penanda aras matematik yang paling mencabar (Sumber: penyelidikan kertas)
Pencapaian ini menyerlahkan keupayaan rangka kerja untuk membolehkan SLM mengendalikan tugas yang sebelum ini dikuasai oleh model besar intensif sumber. Dengan menekankan ketekalan logik dan langkah perantaraan yang boleh disahkan, rStar-Math menangani salah satu cabaran AI yang paling gigih: memastikan penaakulan yang boleh dipercayai merentas ruang masalah yang kompleks.
Inovasi Teknikal Memacu rStar-Math
Evolusi daripada rStar kepada rStar-Math memperkenalkan beberapa kemajuan utama. Penyepaduan MCTS kekal sebagai teras kepada rangka kerja, membolehkan model meneroka laluan penaakulan yang pelbagai dan mengutamakan laluan yang paling menjanjikan.
Penambahan penaakulan CoT, dengan tumpuannya pada pengesahan kod, memastikan bahawa output boleh ditafsir dan tepat.
Berkaitan: QwQ-32B Alibaba-Pratonton Menyertai Pertempuran Penaakulan Model AI Dengan OpenAI
Mungkin yang paling transformatif ialah proses latihan evolusi diri rStar-Math. Sepanjang empat pusingan berulang, rangka kerja memperhalusi model dasar dan PPMnya, menggabungkan data penaakulan berkualiti tinggi pada setiap langkah.
Pendekatan berulang ini membolehkan model meningkatkan prestasinya secara berterusan, mencapai hasil terkini tanpa bergantung pada penyulingan daripada model yang lebih besar.
Membandingkan rStar-Math kepada OpenAI’s o1
Sementara Microsoft memfokuskan pada mengoptimumkan model yang lebih kecil, OpenAI terus mengutamakan peningkatan sistemnya.
Mod Pro o1, yang diperkenalkan pada Disember 2024 sebagai sebahagian daripada Pelan ChatGPT Pro, menawarkan keupayaan penaakulan lanjutan yang disesuaikan untuk aplikasi berkepentingan tinggi seperti pengekodan dan penyelidikan saintifik. OpenAI melaporkan bahawa Mod o1 Pro mencapai kadar ketepatan 86% pada AIME dan kadar kejayaan 90% dalam penanda aras pengekodan seperti Codeforces.
rStar-Math mewakili anjakan dalam inovasi AI, mencabar tumpuan industri pada model yang lebih besar sebagai cara utama untuk mencapai penaakulan lanjutan. Dengan meningkatkan SLM dengan pengoptimuman khusus domain, Microsoft menawarkan alternatif yang mampan yang mengurangkan kos pengiraan dan kesan alam sekitar.
Berkaitan: Penjajaran Musyawarah: Strategi Keselamatan OpenAI untuk Model Pemikirannya o1 dan o3
Kejayaan rangka kerja dalam penaakulan matematik membuka pintu kepada aplikasi yang lebih luas, daripada pendidikan kepada penyelidikan saintifik.
Para penyelidik merancang untuk mengeluarkan kod dan data rStar-Math di GitHub, membuka jalan untuk kerjasama selanjutnya dan pembangunan. Ketelusan ini mencerminkan pendekatan Microsoft untuk menjadikan alatan AI berprestasi tinggi boleh diakses oleh khalayak yang lebih luas, termasuk institusi akademik dan organisasi bersaiz sederhana.
Berkaitan: SemiAnalysis: No, AI Scaling Isn’t Melambatkan
Ketika persaingan antara Microsoft dan OpenAI semakin sengit, kemajuan yang diperkenalkan oleh rStar-Math menyerlahkan potensi model yang lebih kecil untuk mencabar penguasaan sistem yang lebih besar. Dengan mengutamakan kecekapan dan ketepatan, rStar-Math menetapkan penanda aras baharu untuk perkara yang boleh dicapai oleh sistem AI padat.