Satu pasukan penyelidik telah memperkenalkan pendekatan baru untuk meningkatkan penalaran kecerdasan buatan (AI) yang tidak bergantung pada saiz model yang berkembang. Menjana tindak balas calon berganda dan memilih yang paling dipercayai melalui pengesahan diri. Hasil awal menunjukkan bahawa kaedah ini dapat memberikan model seperti Gemini v1.5 Pro kelebihan ke atas Openai’s O1-Preview dalam ujian penanda aras.

Walau bagaimanapun, kaedah itu sudah mencetuskan perdebatan. Sesetengah pakar berpendapat bahawa overhead pengiraan menjalankan pelbagai kesimpulan setiap pertanyaan dapat mengehadkan daya maju dunia nyata. Yang lain mempersoalkan sama ada AI dapat dengan berkesan”mengesahkan dirinya”dengan cara yang bermakna. Bilangan parameter, data latihan, dan kuasa pengiraan. Pendekatan ini, berdasarkan Undang-undang skala saraf , telah memacu kemajuan pesat model bahasa besar. Walau bagaimanapun, kajian baru-baru ini dan prestasi relatif miskin model GPT-4.5 terbaru OpenAI menunjukkan bahawa skala kini menyampaikan pulangan yang berkurangan walaupun kos yang melambung tinggi, mendorong penyelidik untuk mencari kaedah alternatif.

pilih jawapan terbaik. Proses ini mewujudkan apa yang disebut penyelidik sebagai”kesan penskalaan yang tersirat”, menjadikan model kelihatan lebih berkebolehan tanpa data latihan tambahan atau arsitektur yang lebih besar. Menurut kajian ini, teknik ini meningkatkan hasil dalam penanda aras penalaran multi-langkah seperti MMLU dan BigBench-keras, mengatasi model tindak balas tunggal.

Model-model besar, termasuk GPT-4O, GPT-4.5 atau Claude 3.7 sonnet, sering menjana respons yang meyakinkan tetapi tidak tepat, masalah yang dikenali sebagai halusinasi.

respons. Keputusan mereka menunjukkan bahawa kaedah ini meningkatkan ketepatan tugas penalaran berbanding dengan model kesimpulan konvensional.

Walau bagaimanapun, soalan tetap mengenai kecekapan pengiraan pendekatan ini. Menjalankan pelbagai kesimpulan untuk setiap pertanyaan meningkatkan tuntutan pemprosesan, yang boleh menjadikan kaedah ini tidak praktikal untuk aplikasi masa nyata seperti enjin carian dan pembantu suara.

memberi respons kepada peningkatan permintaan untuk penyelesaian kesimpulan yang cekap. Cip AI terkini Nvidia adalah

Walaupun sampel, meneliti dan skala menawarkan perspektif baru mengenai skala AI, kemungkinannya tetap tidak menentu. Kuasa pemprosesan yang semakin meningkat yang diperlukan untuk pelbagai kesimpulan bagi setiap pertanyaan menimbulkan kebimbangan mengenai latensi, skalabilitas, dan penggunaan tenaga.

Untuk aplikasi di mana ketepatan lebih penting daripada kelajuan-seperti penyelidikan saintifik atau semakan dokumen undang-undang-pendekatan ini dapat memberikan manfaat yang bermakna. Tetapi untuk lebih banyak persekitaran sensitif latency, kos pengiraan tambahan mungkin melebihi kelebihannya.

Fokus itu beralih dari sekadar skala model sehingga mencari cara yang lebih efisien untuk mengoptimumkan penalaran. Sama ada penskalaan berasaskan pengesahan menjadi standard industri atau kekal sebagai eksperimen khusus akan bergantung kepada bagaimana syarikat mengimbangi ketepatan, kelajuan pemprosesan, dan tuntutan tenaga pada tahun-tahun akan datang.