Cercetătorii Zoom au introdus o nouă tehnică de solicitare numită lanț de proiect (COD) care ar putea schimba fundamental modul în care modelele de inteligență artificială procesează sarcini de raționament.
Regândind modul în care AI generează răspunsuri, COD reduce utilizarea jetonului cu până la 92% și scade costurile operaționale cu 90%. În loc să se bazeze pe explicații verbose, așa cum se vede în modelele tradiționale de raționament AI, această metodă obligă AI să fie structurată și eficientă, menținând în același timp precizia.
Această descoperire vine într-o perioadă în care modelele de limbaj mare (LLM) consumă cantități crescânde de putere de calcul, ceea ce face ca eficiența să crească o preocupare în creștere. src=”date: imagine/svg+xml; nitro-go-id=mtcznto3njk=-1; base64, phn2zyb2awv3qm94psiwidagnzy3idqx NSIGD2LKDGG9IJC2NYIGAGVPZ2H0PSI
The question now is whether techniques like CoD will influence the broader industry, particularly as major players like OpenAI, Google, Microsoft, and others face mounting pressure to cut costs.
How Chain of Draft Works
Chain of Draft (CoD) is a structured prompting Strategie Proiectat pentru a îmbunătăți eficiența în raționamentul AI, reducând în același timp cheltuielile generale de calcul. Se bazează pe solicitarea lanțului de gândire (COT), care încurajează modelele de limbaj mare (LLM) să descompună problemele complexe în explicații în mai multe etape.
În timp ce COT s-a dovedit eficient pentru îmbunătățirea raționamentului logic, crește semnificativ utilizarea jetonului, ceea ce duce la costuri mai mari și timpuri de răspuns mai lente. COD încearcă să abordeze aceste ineficiențe prin aplicarea unei abordări minimaliste a etapelor de raționament intermediar.
Principiul principal din spatele COD este de a imita modul în care oamenii procesează informațiile atunci când rezolvă probleme complexe. În loc să genereze explicații detaliate la fiecare etapă, COD instruiește modelul să producă doar rezultate intermediare esențiale-se uită la modul în care o persoană ar putea nota câteva note cheie în timp ce lucrează printr-o problemă. Această concizie structurată permite LLM-urilor să mențină o precizie logică în timp ce reduce dramatic generarea de jetoane inutile.
Spre deosebire de tehnicile anterioare de eficiență-focalizată, cum ar fi
CoD was tested with OpenAI’s GPT-4o model and Claude 3.5 Sonnet from Anthropic on GSM8K, a widely Set de date utilizate pentru evaluarea raționamentului aritmetic în modelele de limbă. Rezultatele indică faptul că, în timp ce COT obține o precizie ușor mai mare, aceasta face acest lucru la un cost de calcul masiv. În schimb, COD oferă un nivel de corectitudine aproape echivalent, în timp ce scade drastic consumul de jetoane.
Sursa: Zoom
Pentru raționamentele obișnuite, COD a fost evaluat pe sarcinile de înțelegere a datelor Big-Bench și de înțelegere sportivă. Rezultatele arată că COD nu numai că reduce cerințele de calcul, dar, de asemenea, depășește COT în anumite cazuri, demonstrându-și eficacitatea în aplicații practice.
sursă: Zoom
sarcini de raționament simbolic, cum ar fi predicția de flipping monede, a testat eficacitatea COD în sarcini logice extrem de structurate. Evaluarea a confirmat îmbunătățiri substanțiale ale eficienței.
Limitări ale modelelor mici
În timp ce COD se dovedește extrem de eficient pe LLM-uri la scară largă, efectuează mai puțin eficient pe modele mici (≤3b parametri) din cauza lipsei expunerii la instruire la raționamentul în stil cod. Rezultatele pe QWEN2.5 (1,5b și 3B), LLAMA 3.2 (3B) și ZOOM-SLM (2,3B) evidențiază un decalaj de performanță mai semnificativ în comparație cu COT.
sursă: Zoom
Aceste descoperiri sugerează că modelele mici necesită reglare fină cu date în stil COD pentru a-și folosi pe deplin beneficiile de eficiență. Fără adaptare, pierderea de precizie devine mai accentuată, limitând aplicabilitatea imediată a COD pentru sistemele AI ușoare.
Openai își ajustează strategia de model AI
, în timp ce companii precum Zoom lucrează la rafinarea eficienței AI, Openai își restructrează în prezent gama modelului. La 13 februarie 2025, compania a anunțat că își va întrerupe modelul O3 de sine stătător și își va consolida capacitățile de raționament structurate în GPT-5.
Decizia a fost în mare parte un răspuns la confuzia în creștere între utilizatorii în ceea ce privește selecția OpenAI de modele AI.
OpenAI, apoi a introdus GPT-4.5, deoarece ultimul său non-reasulare, care a fost modelul temporarului, a introdus GPT-4.5, în timp ce ultimul său non-reasulare, care a fost modelul temporarului, a introdus GPT-5 Schimbarea focalizării de la mai multe opțiuni de model la un sistem AI mai eficient. Înainte de lansarea sa, modelul de bază cu numele de cod Orion ar fi fost așteptat să fie lansat ca GPT-5.
performanța sa neplăcută în comparație cu sonetul de raționament modern, cum ar fi o3-MINI, GROK 3 și Claude 3.7 Sonetul pare să fi influențat această decizie. Mai târziu, Microsoft a făcut un pas decisiv care a presat în continuare modelul de afaceri al lui OpenAI. Microsoft a anunțat recent că asistentul său de copilot va oferi acum gratuit O3-MINI-MINI GRATUIT, eliminând un paywall care a limitat anterior acces la modelul de raționament mai avansat.
înainte de această mișcare, modelul O3-Mini-High Openai a fost disponibil doar prin planurile de abonament plătite. Monetizează-i modelele AI cele mai capabile. Această schimbare subliniază, de asemenea, de ce descoperirile de eficiență, cum ar fi codul Zoom, devin din ce în ce mai relevante.
Deepseek se deplasează rapid pentru a contesta Openai
Între timp, concurența în spațiul AI a continuat să se intensifice. Pe 26 februarie 2025, Chinese AI Lab Deepseek a anunțat că accelerează lansarea modelului său R2. Programată inițial pentru mai 2025, lansarea modelului a fost mutat pentru a contracara dominanța lui Openai, Alibaba și Google.
ascensiunea Deepseek a coincis cu o creștere a dezvoltării AI în China, unde companiile caută alternative la modelele dezvoltate din SUA. Cu toate acestea, compania se confruntă cu provocări dincolo de concurență.
După succesul surprinzător al lui Deepseek cu modelul său de raționament R1, se pare că alți chinezi au stocat procesoarele H20 ale NVIDIA din cauza întăririi sancțiunilor comerciale din SUA, reflectând dificultatea crescândă de a dobândi cipuri AI de înaltă performanță.
În timp ce Openai și Deepseek își perfecționează strategiile de raționament AI, alte companii se concentrează pe diferite abordări de reducere a costurilor.
Alibaba tocmai a introdus QWQ-32B, un model AI open-sursă conceput pentru a oferi un raționament performant cu costuri de calcul reduse. Eliberarea poziționează Alibaba ca un concurent direct la Openai și Deepseek, în special pentru întreprinderile care caută soluții AI accesibile.
Amazon se presupune că intră și în cursa de eficiență AI, dar cu o strategie diferită. Compania dezvoltă Nova AI, un model proprietar care se așteaptă să se lanseze până în iunie 2025.
Spre deosebire de abordarea open-source a Alibaba, Amazon integrează Nova AI direct în AWS, consolidând ofertele sale de servicii de cloud AI și, cel mai probabil Costuri, companiile experimentează cu diferite strategii. Indiferent dacă prin solicitarea structurată a COD, prin modelele optimizate ale Deepseek sau alternativele prietenoase cu costurile Alibaba, firmele AI se deplasează dincolo de dimensiunea modelului pur și se concentrează pe eficiența pe termen lung.
modelul AI Benchmarks-LLM Bordsboard
Ultima actualizare: 7 martie, 2025
Organizare Model Context Parametri (b) intrare $/m ieșire $/m licență gpqa mmlu mmlu Pro Drop Humeval aime’24 Simplebench Model OpenAI O3128.000 ––– Proprietar87.70%–––– O3 CLAUDE ANTROPIC 3.7 SONNET200,000 $ 3,00 $ 15.00 Proprietar84.80%86,10%––– 80,00%46,4%Claude 3.7 Sonet Xai Grok-3128.000 ––– Proprietar84.60%–79,90%–– 93,30%GROK-3 XAI GROK-3 Mini128.000 –––– Proprietary84.60%–78.90%–– 90,8 OpenAI O3-MINI200.000-1,10 USD 4,40 USD Proprietar79,70%86,90%––– 86,50%22,8%O3-Mini OpenAI O1-PRO128.000 ––– Proprietar79.00%––– 86,00%O1-PRO OpenAI O1200.000-15.00 $ 60.00 $ 60.00 $ 60.00 $ 60.00 Proprietar78.00%91,80%–– 88,10%83,30%40,1%O1 Google GEMINI 2.0 Flash Thinking1.000.000 ––– Proprietar74.20%–––– 73,30%30,7%Gemini 2.0 Gândire flash OpenAI O1-Preview128.000-15,00 $ 60.00 $ $ $ Proprietar73.30%90,80%––– 44,60%41,7%O1-Preview Deepseek Deepseek-R1131.072671 $ 0,55 $ 2,19 Open71.50%90,80%84,00%92,20%–79,80%30,9%Deepseek-R1 OpenAigpt-4.5128.000 ––– Proprietar71.4%90,0%–– 88,0%36,7%34,5%GPT-4.5 Claude antropice 3,5 sonet200.000-3,00 USD 15,00 $ Proprietar67,20%90,40%77,60%87,10%93,70%16,00%41 QWEN QWQ-32B-Preview32.76832.5 0,15 USD 0,20 USD Open65.20%–70,97%–– 50,00%QWQ-32B-Preview Google Gemini 2.0 Flash1,048,576 ––– Proprietar62.10%–76.40%––35.5%18,9%GEMINI 2,0 Flash Openai Openai Openai –– 35.5%18,9%GEMINI 2,0 Flash Openai O1-MINI128.000– 3,00 $ 12,00 $ Proprietar60,00%85,20%80,30%–92.40%70,00%18,1%O1-MINI DEEPSEEK DEEPSEEK-V3131.072671 0,27 USD 1,10 USD 59,10%88,50%75,90%91,60%–39.2% GEMINI 1,5 PRO2.097.152– 2,50 $ 10,00 $ Proprietar59.10%85,90%75,80%74,90%84,10%19,3%27,1%Gemini 1,5 Pro Microsoft PHI-416.00014,7 0,07 USD 0,14 $ Open56,10%84,80%70.40%75,50%8 GROK-2128.000-2,00 $ 10,00 $ Proprietar56,00%87,50%75,50%–88,40%22,7%GROK-2 OpenAI GPT-4O128.000-2,50 $ 10,00 $ Proprietar53.60%88,00%74,70%–– 17,8%GPT-4O GOOGLE GEMINI 1.5 Flash1,7 0,60 USD Proprietar51,00%78,90%67,30%–74,30%GEMINI 1,5 FLASH XAI GROK-2 MINI128.000 ––– Proprietar51,00%86,20%72,00%–85,70%Grok-2 Mini Meta llama 3,1 405B Instruct128.000405 $ 0.90 $ 0,90 $ 0,90 Open50.70%87,30%73,30%84,80%89,00%23,0%LLAMA 3.1 405B Instruct Meta llama 3.3 70b Instruct128.00070 0,20 $ 0,20 USD Open50,50%86,00%68,90%–88,40%19,9%llama 3,3 70b Instruct Antropic Claude 3 Opus200,000 $ 15.00 70B INSTRUCT 75,00 USD Proprietar50,40%86,80%68,50%83,10%84,90%23,5%Claude 3 Opus QWEN QWEN2.5 32B Instruct131.07232.5––pen49.50%83,30%69,00%–88.40%QWEN2.5 32B Instruct Qwen QWEN2.5 72B Instruct131.07272,7 0,35 USD 0,40 USD Open49,00%–71,10%–86,60%23,30%QWEN2.5 72B Instruct OpenAI GPT-4 Turbo128.000-10,00 USD 30,00 $ Propriary48,00%86,50%–86,00,00%87,10%GPT-4 Turbo Amazon NovA Pro300,00,00%87,10%GPT-4 Turbo Amazon Nov. 3,20 USD Proprietar46,90%85,90%–85,40%89,00%Nova Pro Meta Llama 3.2 90B Instruct128.00090 $ 0,35 0,40 USD Open46,70%86,00%––– LLAMA 3,2 90B Instruct Qwen Qwen2.5 14B Instruct131.07214.7––pen45,50%79,70%63,70%–83,50%QWEN2.5 14b Instruire Mistral Mistral Small 332.00024 $ 0.07 0,14 $ Open45,30%–66,30%–84,80%Mistral Small 3 QWEN qwen2 72b Instruct131.07272–-OpenS42.40%82,30%64,40%–86,00%QWEN2 72B Instruct Amazon Nova Lite300.000-0,06 USD 0,24 $ Proprietar42.00%80,50%–80,20%85,40%Nova Lite Meta 0,2 3,1 70B Open41.70%83,60%66,40%79,60%80,50%LLAMA 3,1 70B Instruiți Claude antropică 3.5 Haiku200.000-0,10 $ 0,50 $ Proprietar41.60%–65,00%83,10%88,10%CLAUDE 3,5 $ Haiku Anthropic Claude 3 Sonnet200,000 $ 3,00 USD 15.00 Proprietar40,40%79,00%56,80%78,90%73,00%Claude 3 Sonnet OpenAI GPT-4O Mini128.000-0,15 $ 0,60 $ Proprietar40,20%82,00%–79,70%87,20%10,7%GPT-4O Mini Amazon NOVA Micro128.000-0,04 $ 0,1 Proprietar40,00%77,60%–79,30%81,10%Nova Micro Google Gemini 1,5 Flash 8B1.048.5768 $ 0,07 $ 0,30 $ Proprietar38.40%–58,70%–– Gemini 1,5 Flash 8B AI21 JAMBA 1,5 MARGE256.000398 $ 2.00 $ 8.00 $ 8.00 $ 8.00 Open36.90%81,20%53,50%–– Jamba 1,5 Microsoft PHI-3,5-MOE-INSTRUCT128.00060––Pen36.80%78,90%54,30%–70,70%PHI-3,5-MOE-Instruct QWEN QWEN2.5 7B Instruct131,0727.6 $ 0.30 $ 0.30 0,30 7B Instruct131,0727.6 $ 0.30 $ 0.30 $ 7. Open36.40%–56.30%–84.80%QWEN2.5 7B Instruiți Xai Grok-1.5128.000 ––– Proprietar35.90%81,30%51,00%–74.10%GROK-1.5 OpenAI GPT-432.768– 30,00 USD 60,00 USD 60,00 USD Proprietary35.70%86.40%–80.90%67.00%25.1%GPT-4 anthropic Claude 3 Haiku200,000–$0.25 $1.25 Proprietary33.30%75.20%–78.40%75.90%Claude 3 Haiku meta Llama 3.2 11B Instruct128,00010.6$0.06 $0.06 Open32.80%73,00%––– LLAMA 3,2 11B Instruiți meta llama 3.2 3b Instruct128.0003,2 0,01 $ 0,02 $ Open32.80%63,40%––– LLAMA 3,2 3B Instruct AI21 JAMBA 1,5 mini256.14452 $ 0.20 $ 0,5 Open32.30%69.70%42.50%$ $ 0,40 OPEN32.30 Mini OpenAI GPT-3,5 Turbo16.385– 0,50 $ 1,50 $ Proprietar30.80%69,80%–70,20%68,00%GPT-3,5 Turbo Meta llama 3,1 8B Instruct131.0728 $ 0,03 0,03 USD Open30.40%69,40%48.30%59,50%72.60% Microsoft PHI-3,5-Mini-Instruct128.0003,8 $ 0,10 $ 0,10 $ Open30.40%69,00%47,40%–62.80%PHI-3,5-mini-instrucțiune Google Gemini 1.0 Pro32,760-0,50 USD 1,50 $ Proprietar27,90%71,80%–– GEMINI 1.0 Pro QWEN2 71 Instruct131.0727.6–-OpenT25.30%70,50%44,10%–– QWEN2 7B Instruiți codestral mistral-22b32.76822,2 $ 0,20 $ 0,60 $ Open ––––– 81.10%Codestral-22b Comanda cohere r+ 128.000104 $ 0,25 $ 1,00 $ deschis Deepseek-V2.58.192236 0,14 $ 0,28 $ Open-80,40%–– 89,00%Deepseek-V2.5 Google GEMMA 2 27B8.19227.2–Open-75.20%–– 51,80%Gemma 2 27B Google Gemma 2 9B8.1929.2–Open-71.30%-40.20%GEMMA 2-OPEN-7 9B XAI GROK-1.5V128.000 ––– Proprietar ––––– GROK-1.5V Moonshotai Kimi-K1.5128.000 ––– Proprietar-87.40%–––-Kimi-K1.5 Nvidia Llama 3.1 Nemotron 70B Instruct128.00070-Open-80.20%––– Llama 3.1 70b Instruiți Mistral Ministral 8B Instruct128.0008 0,10 $ 0,10 $ Open-65,00%–– 34,80%Ministral 8B Instruiți mistral Mistral mare 2128.000123 $ 2,00 $ 6,00 $ Open-84,00%–– 92,00%22,5%Mistral mare 2 Mistral Mistral NEMO Instruct128.00012 $ 0.15 $ 0.15 Mistral NemoN Deschis-68,00%––– Mistral nemo Instruiți mistral Mistral Small32.76822 $ 0,20 $ 0,60 USD deschis ––––– Mistral Microsoft PHI-3,5-Vision-Instruct128.0004.2–Open –––– PHI-3,5-Vision-Insstruct Mistral Pixtral-10b128.0001 Deschis-69,20%–– 72,00%Pixtral-12B Mistral Pixtral Large128.000124 $ 2,00 $ 6.00 $ Open ––––– Pixtral mare QVQ-72B-Preview32.76873.4–Open –––– QVQ-72B-Preview QWEN $ 0.5.5-CODER 32B 32B 0,09 USD deschis-75,10%50,40%–92,70%QWEN2.5-coder 32B Instruiți QWEN QWEN2.5-Coder 7B Instruct128.0007–-Open-67,60%40,10%–88.40%QWEN2.5-Coder 7B Instruct QWEN QWEN2-VL-72B-INSTRUCT32.76873.4–– Open ––––– QWEN2-VL-72B-INSTRUCT
Related Posts
Acest articol discută noua caracteristică din Windows 11, permițând utilizatorilor să arate sau să ascundă ecusoanele de notificare a dispozitivului mobil în meniul Start prin aplicația Link Phone. Prin accesarea aplicației
Acest articol detaliază cum să afișați sau să ascundeți conținutul recent al dispozitivului mobil în meniul Start de pe Windows 11 folosind aplicația Link Phone. Cea mai recentă actualizare permite utilizatorilor să își personalizeze vedeta
Microsoft Copilot și-a modernizat funcția de raționament mai profundă la O3-MINI-HIGH GRATUIT, înlocuind modelul anterior O1 și provocând modelul de abonament AI OpenAI. The post Mic