Penyelidik Zoom telah memperkenalkan teknik yang baru yang dipanggil Rantaian Draf (COD) yang secara asasnya boleh mengubah bagaimana model kecerdasan buatan memproses tugas-tugas penalaran.

Daripada bergantung pada penjelasan yang jelas, seperti yang dilihat dalam model penalaran AI tradisional, kaedah ini memaksa AI berstruktur dan cekap sambil mengekalkan ketepatan.

Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtcznto3njk=-1; base64, phn2zyb2awv3qm94psiwidagnzy3idqx Nsigd2lkdgg9ijc2nyigagvpz2h0psi0mtuiihhtbg5zpsjodhrwoi8vd3d3d3lnczlm9yzy8ymdawl3nzyi+pc9zdmc+”>

Persoalan sekarang ialah sama ada teknik seperti COD akan mempengaruhi industri yang lebih luas, terutamanya sebagai pemain utama seperti Openai, Google, Microsoft, dan yang lain menghadapi tekanan pemasangan untuk mengurangkan kos. Strategi yang mendorong direka untuk meningkatkan kecekapan dalam penalaran AI sambil mengurangkan overhead pengiraan. Ia membina rantai pemikiran (COT) yang menggalakkan, yang menggalakkan model bahasa yang besar (LLMs) untuk memecahkan masalah kompleks ke dalam penjelasan pelbagai langkah.

Walaupun COT telah terbukti berkesan untuk meningkatkan penalaran logik, ia meningkatkan penggunaan token dengan ketara, yang membawa kepada kos yang lebih tinggi dan masa tindak balas yang lebih perlahan. COD bertujuan untuk menangani ketidakcekapan ini dengan menguatkuasakan pendekatan minimalis terhadap langkah-langkah penalaran pertengahan.

Prinsip teras di belakang COD adalah untuk mencontohi bagaimana manusia memproses maklumat apabila menyelesaikan masalah yang rumit. Daripada menghasilkan penjelasan terperinci di setiap langkah, COD mengarahkan model untuk menghasilkan hanya hasil pertengahan yang penting-semak bagaimana seseorang mungkin mencatatkan beberapa nota utama semasa bekerja melalui masalah. Kesimpulan berstruktur ini membolehkan LLMS mengekalkan ketepatan logik sementara secara dramatik mengurangkan generasi token yang tidak perlu.

Tidak seperti teknik yang berfokus pada kecekapan sebelumnya, seperti pemikiran ringkas (ccot) Sebaliknya, ia menggunakan kekangan yang dinamik, per-langkah, yang membolehkan langkah-langkah penalaran yang tidak terhad sambil mengekalkan kesimpulan keseluruhan

mengapa kecekapan AI lebih penting daripada sebelumnya

Lebih banyak token yang digunakan model, semakin tinggi kos operasi.

Teknik-teknik seperti Rantaian Pemikiran (COT) telah dibangunkan untuk meningkatkan keupayaan AI untuk mengendalikan tugas-tugas yang kompleks dengan menggalakkan penalaran langkah demi langkah. Walau bagaimanapun, pendekatan ini dengan ketara meningkatkan penggunaan token, menjadikan operasi AI semakin mahal.

Kaedah COD Zoom memperkenalkan strategi yang berbeza. Daripada mempunyai AI mengartikulasikan setiap langkah dengan kelebihan yang berlebihan, COD mengoptimumkan struktur tindak balas, memastikan kedalaman logik sambil meminimumkan output yang tidak perlu.

Penandaarasan yang luas telah menunjukkan bahawa COD boleh dipadankan atau melampaui ketepatan semasa secara drastik mengurangkan penggunaan token. Dalam eksperimen merentasi tugas-tugas penalaran aritmetik, akal, dan simbolik, COD yang digunakan sekurang-kurangnya 7.6% daripada token yang diperlukan oleh COT, dengan ketara menurunkan kos pengiraan.

Potensi untuk mempengaruhi strategi penempatan AI merentasi pelbagai domain, terutamanya di kawasan di mana kecekapan kos dan pengurangan latensi adalah kebimbangan kritikal. Dataset yang digunakan secara meluas untuk menilai penalaran aritmetik dalam model bahasa. Hasilnya menunjukkan bahawa sementara COT mencapai ketepatan yang lebih tinggi, ia berbuat demikian pada kos pengiraan besar-besaran. Sebaliknya, COD menyediakan tahap ketepatan yang hampir sama dengan penggunaan token secara drastik. Keputusan menunjukkan bahawa COD bukan sahaja mengurangkan keperluan pengiraan tetapi juga mengatasi COT dalam kes-kes tertentu, menunjukkan keberkesanannya dalam aplikasi praktikal.

sumber: Zoom

Tugas penalaran simbolik, seperti ramalan duit syiling, keberkesanan COD yang diuji dalam tugas logik yang sangat berstruktur. Penilaian itu mengesahkan peningkatan kecekapan yang besar.

Batasan pada model kecil

Walaupun COD membuktikan sangat berkesan pada LLM berskala besar, ia kurang cekap pada model kecil (≤3b parameters) kerana kekurangan pendedahan latihan kepada penalaran gaya COD. Keputusan pada Qwen2.5 (1.5b dan 3b), Llama 3.2 (3b), dan Zoom-SLM (2.3b) menyerlahkan jurang prestasi yang lebih penting berbanding dengan Cot. Src=”Data: Image/Svg+Xml; Nitro-empty-id=mtc1nzoxmti1-1; base64, phn2zyb2awv3qm94psiwidagnzc0idyzniig d2lkdgg9ijc3ncigagvpz2h0psi2mzyiihhtbg5zpsjodhrwoi8vd3d3d3lnczlm9yzy8ymdawl3nzyi+pc9zdmc+”> sumber: Zoom

Penemuan ini mencadangkan bahawa model kecil memerlukan penalaan halus dengan data gaya COD untuk memanfaatkan sepenuhnya manfaat kecekapannya. Tanpa penyesuaian, kehilangan ketepatan menjadi lebih ketara, mengehadkan kebolehgunaan segera COD untuk sistem AI ringan.

OpenAI menyesuaikan strategi model AI

Pada 13 Februari, 2025, syarikat itu mengumumkan bahawa ia akan menghentikan model O3 yang tidak dapat dirilis dan menyatukan keupayaan penalaran berstrukturnya ke dalam GPT-5. GPT-5, beralih fokus dari pelbagai pilihan model ke sistem AI yang lebih diselaraskan. Sebelum pembebasannya, model asas dengan nama kod Orion dijangka akan dibebaskan sebagai GPT-5. Dikemaskini: 7 Mac, 2025 Model Context parameter (b) Input $/m Pro drop HumanEval aime’24 SimpleBench Model OpenAI O3128,000—proprietary87.70%-Proprietary84.80%86.10%—80.00%46.4%Claude 3.7 Sonnet Xai Grok-3128,000—proprietary84.60%-79.90%-93.30%Grok-3 Xai Grok-3 Mini128,000—proprietary84.60%-78.90%-90.80%Grok-3 Mini Openai O3-Mini200,000-$ 1.10 $ 4.40 Proprietary79.70%86.90%-O1-Pro128,000—proprietary79.00%—86.00%O1-Pro OpenAI O1200,000-$ 15.00 $ 60.00 Proprietary78.00%91.80%-88.10%83.30%40.1%O1 Google Gemini 2.0 Flash Pemikiran1,000,000—proprietary74.20%—73.30%30.7%Gemini 2.0 Pemikiran Flash Openai O1-Preview128,000-$ 15.00 $ 60.00 Proprietary73.30%90.80%-$ 2.19 Open71.50%90.80%84.00%92.20%-79.80%30.9%DeepSeek-R1 Openaigpt-4.5128,000—Proprietary71.4%90.0%-88.0 Proprietary67.20%90.40%77.60%87.10%93.70%16.00%41.4%Claude 3.5 Sonnet Qwen QWQ-32B-prev32,76832.5 $ 0.20 Flash1,048,576—proprietary62.10%-76.40%-35.5%18.9%Gemini 2.0 Flash Openai O1-Mini28,000-$ 3.00 $ 12.00 Proprietary60.00%85.20%80.30%-920 DeepSeek-V3131,072671 $ 0.27 $ 1.10 Open59.10%88.50%75.90%91.60%-39.2%18.9%DeepSeek-V3 Google Gemini 1.5 Pro2,097,152-$ 2.50 $ 10.00 Proprietary59.10%85.90%75.80%74.90%84.10%19.3%27.1%Gemini 1.5 Pro Microsoft PHI-416,00014.7 $ 0.07 $ 0.14 Open56.10 Proprietary56.00%87.50%75.50%-88.40%22.7%Grok-2 OpenAI GPT-4O128,000-$ 2.50 $ 10.00 proprietary53.60%88.00%74.70%-17.8%GPT-4O GPT-4O 10. Proprietary51.00%78.90%67.30%-74.30%Gemini 1.5 Flash XAI Grok-2 mini128,000—proprietary51.00%86.20%72.00%-85.70%grok-2 mini meta llama 3.1 0.1 0.1 0. Open50.70%87.30%73.30%84.80%89.00%23.0%Llama 3.1 405b Mengarahkan Meta Llama 3.3 70b Instruct128,00070 $ 0.20 $ 0.20 Open50.50%86.00%68.90%-88.40 $ 75.00 proprietary50.40%86.80%68.50%83.10%84.90%23.5%Claude 3 Opus Qwen qwen2.5 32b Instruct131,07232.5-Open49.50 Instruct131,07272.7 $ 0.35 $ 0.40 Open49.00%-71.10%-86.60%23.30%QWEN2.5 72B Mengarahkan OpenAI GPT-4 Turbo128,000-$ 10.00 $ 30.00 Proprietik48.00 $ 3.20 proprietary46.90%85.90%-85.40%89.00%Nova Pro Meta Llama 3.2 90b Instruct128,00090 $ 0.35 $ 0.40 Open46.70%86.00%-Instruct131,07214.7-Open45.50%79.70%63.70%-83.50%Qwen2.5 14b Mengarahkan Mistral Mistral Small 332,00024 $ 0.07 $ 0.14 Open45.30%-66.30 Instruct131,07272-Open42.40%82.30%64.40%-86.00%QWEN2 72B INSTRUME Amazon Nova Lite300,000-$ 0.06 $ 0.24 Proprietary42.00%80.50%-80.20 Open41.70%83.60%66.40%79.60%80.50%Llama 3.1 70B Mengarahkan Anthropic Claude 3.5 Haiku200,000-$ 0.10 $ 0.50 Proprietary41.60%-65.00%83.10 Proprietary40.40%79.00%56.80%78.90%73.00%Claude 3 Sonnet OpenAI GPT-4O Mini128,000-$ 0.15 $ 0.60 Proprietary40.20%82.00%-79.70 Proprietary40.00%77.60%-79.30%81.10%Nova Micro Google Gemini 1.5 Flash 8b1,048,5768 $ 0.07 $ 0.30 Proprietary38.40%-58.70%-Open36.90%81.20%53.50%-JAMBA 1.5 besar Microsoft PHI-3.5-MOE-Instruct128,00060-Open36.80%78.90%54.30%-70.70%Phi-3.5-MoE QWEN2.5 7b Open36.40%-56.30%-84.80%Qwen2.5 7b Mengarahkan XAI Grok-1.5128,000—Proprietary35.90%81.30%51.00%-74.10%Grok-1.5 OpenAI GPT-432,768-$ 60.00 Proprietary35.70%86.40%-80.90%67.00%25.1%GPT-4 Anthropic Claude 3 Haiku200,000-$ 0.25 $ 1.25 Proprietary33.30%75.20%-78.40%75.90%0.o.000000000%0.o.0000000000000000000000000000%0.oK. Open32.80%73.00%—Llama 3.2 11b Mengarahkan Meta Llama 3.2 3B Instruct128,0003.2 $ 0.01 $ 0.02 Open32.80%63.40%-Open32.30%69.70%42.50%-Jamba 1.5 Mini OpenAI GPT-3.5 Turbo16,385-$ 0.50 $ 1.50 Proprietary30.80%69.80%-70.20%68.00%GPT-3.5 Turbo Meta Llama 3.1 8b Open30.40%69.40%48.30%59.50%72.60%LLAMA 3.1 8B Mengarahkan Microsoft PHI-3.5-Mini-Instruct128,0003.8 $ 0.10 $ 0.10 Open30.40%69.00% $ 1.50 Proprietary27.90%71.80%—Gemini 1.0 Pro Qwen Qwen2 7b Instruct131,0727.6-Open25.30%70.50% Terbuka—-81.10%CODESTRAL-22B COHERE COMMAND R+ 128,000104 $ 0.25 $ 1.00 Terbuka-75.70%—17.4%perintah R+ DeepSeek DeepSeek-V2.58,192236 $ 0.28 OPEN-80.40 27b8,19227.2-Open-75.20%-51.80%Gemma 2 27b Google Gemma 2 9b8,1929.2-Open-71.30%-40.20%Gemma 2 9b Xai Grok-1.5v128,000-Kimi-k1.5128,000—proprietary-87.40%—kimi-k1.5 nvidia llama 3.1 nemotron 70b ajaran128,00070-terbuka-80.20%-Open-65.00%-34.80%Menteri 8b Mengarahkan Mistral Mistral Large 2128,000123 $ 2.00 $ 6.00 Open-84.00%-92.00%22.5%Mistral Large 2 Mistral Mistral Nemo Instruct128,000 Small32,76822 $ 0.20 $ 0.60 Terbuka—–Mistral Kecil kecil Microsoft PHI-3.5-Vision-Instruct128,000.2-Open—–PHI-3.5-Vision-Instruct Pixtral-12B128,000.4 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0.15 $ 0. Pixtral large128,000124 $ 2.00 $ 6.00 Terbuka—–pixtral besar Qwen Qwen Qvq-72b-preview32,76873.4-dibuka—-qvq-72b-preview Qwen qwen2.5-coder Open-75.10%50.40%-92.70%Qwen2.5-coder 32B Mengarahkan Qwen Qwen2.5-Coder 7b Instruct128,0007-Open-67.60%40.10%-88.40%Qwen2.5-Coder 7b QWEN2-VL-72B-Instruct32,76873.4-Open——QWEN2-VL-72B-Instruct

Microsoft baru-baru ini mengumumkan bahawa pembantu copilotnya kini akan menawarkan OpenAI O3-mini-tinggi secara percuma, mengeluarkan paywall yang sebelum ini telah terhad akses kepada model pemikiran yang lebih maju. Mengewangkan model AI yang paling berkebolehan. Peralihan ini juga menggariskan mengapa kejayaan kecekapan seperti COD Zoom menjadi semakin relevan. Pada 26 Februari, 2025, Lab AI Cina Deepseek mengumumkan bahawa ia mempercepatkan pelepasan model R2nya. Awalnya dijadualkan pada bulan Mei 2025, pelancaran model itu dipindahkan untuk menentang dominasi Openai, Alibaba, dan Google. Walau bagaimanapun, syarikat menghadapi cabaran melampaui persaingan.

Selepas kejayaan mengejutkan DeepSeek dengan model penalaran R1, orang Cina yang lain dilaporkan menyimpan pemproses H20 yang lebih tinggi, yang mencerminkan kesukaran untuk memperolehi

Walaupun Openai dan Deepseek memperbaiki strategi penalaran AI mereka, syarikat-syarikat lain memberi tumpuan kepada pendekatan pengurangan kos yang berbeza.

Alibaba hanya memperkenalkan QWQ-32B, model AI sumber terbuka yang direka untuk menyampaikan penalaran berprestasi tinggi dengan kos pengiraan yang dikurangkan. Pelepasan kedudukan Alibaba sebagai pesaing langsung untuk Openai dan DeepSeek, terutamanya untuk perniagaan yang mencari penyelesaian AI yang berpatutan.

Amazon dilaporkan juga memasuki perlumbaan kecekapan AI tetapi dengan strategi yang berbeza. Syarikat sedang membangunkan Nova AI, model proprietari yang dijangka akan dilancarkan pada bulan Jun 2025. Kos, syarikat bereksperimen dengan strategi yang berbeza. Sama ada melalui penyusun berstruktur COD, model yang dioptimumkan DeepSeek, atau alternatif mesra kos Alibaba, firma AI bergerak melampaui saiz model semata-mata dan memberi tumpuan kepada kecekapan jangka panjang.