Zoom-forskere har introdusert en ny fremkallingsteknikk kalt Chain of Draft (COD) som fundamentalt kan endre hvordan kunstige intelligensmodeller behandler resonnementoppgaver.

Ved å revurdere hvordan AI genererer svar, reduserer COD token bruk av opptil 92% og lavere driftskostnader med 90%. I stedet for å stole på ordreforklaringer, som det sees i tradisjonelle AI-resonnementsmodeller, tvinger denne metoden AI til å være strukturert og effektiv samtidig som den opprettholder nøyaktigheten.

Dette gjennombruddet kommer i en tid der store språkmodeller (LLMS) bruker økende mengder beregning, og gjør effektiviteten til en voksende”

Spørsmålet er nå om teknikker som COD vil påvirke den bredere industrien, spesielt som store aktører som Openai, Google, Microsoft og andre står overfor montering av press for å kutte kostnader.

hvordan kjede av utkast fungerer Designet for å forbedre effektiviteten i AI-resonnement mens du reduserer beregningsoverhead. Det bygger på tankekjede (COT) som ber om, som oppmuntrer store språkmodeller (LLM) til å dele opp komplekse problemer i flertrinns forklaringer.

Mens COT har vist seg å være effektiv for å forbedre logisk resonnement, øker den betydelig bruk av token, noe som fører til høyere kostnader og langsommere responstider. COD søker å adressere disse ineffektivitetene ved å håndheve en minimalistisk tilnærming til mellomliggende resonnementstrinn.

Kjerneprinsippet bak COD er ​​å etterligne hvordan mennesker behandler informasjon når de løser komplekse problemer. I stedet for å generere detaljerte forklaringer på hvert trinn, instruerer COD modellen til å produsere bare essensielle mellomresultater-når en person kan notere noen få nøkkeltrekk mens han jobber gjennom et problem. Denne strukturerte konsisenheten gjør at LLMS kan opprettholde logisk nøyaktighet, samtidig href=”https://medium.com/@fcatser/cracking-the-code-concise-chain-of-thought-ccot-prompting-a1598cdd04f2″> konsise tanker (ccot)

hvorfor AI-effektivitet betyr mer enn noen gang

AI-modeller er avhengige av tokens-de grunnleggende enhetene for tekstbehandling-for å generere respons. Jo flere symboler en modell bruker, jo høyere er driftskostnadene.

Teknikker som tankehjede (COT) er utviklet for å forbedre AIs evne til å håndtere komplekse oppgaver ved å oppmuntre til trinn-for-trinn-resonnement. Imidlertid øker denne tilnærmingen betydelig bruk av token, noe som gjør AI-operasjoner stadig dyrere.

Zooms COD-metode introduserer en annen strategi. I stedet for å ha AI artikulert hvert trinn med overdreven verbositet, optimaliserer COD strukturen til responser, noe

Omfattende benchmarking har vist at COD kan matche eller overgå barneseng i nøyaktighet mens den drastisk reduserer tokenbruken. I eksperimenter på tvers av aritmetiske, commonsense og symbolske resonneringsoppgaver, brukte COD så lite som 7,6% av symbolene som kreves av COT, noe som reduserer beregningskostnadene betydelig.

ved å skifte llms vekk fra altfor å forbedre en strukturell tilnærming til å forbedre en-pig-en-kantene og minimal-en som er minimal. Potensialet til å påvirke AI-distribusjonsstrategier på flere domener, spesielt på områder der kostnadseffektivitet og latensreduksjon er kritiske bekymringer.

Zoom-forskningsoppgaven presenterer empiriske evalueringer på tvers av flere oppgavekategorier, og avslører hvordan COD utfører seg til GS-standardk, en COT.

COD Son ble testet fra OpenIws-modellen, og en COT og COT og CLA-cot og Cla. Mye brukt datasett for evaluering av aritmetisk resonnement i språkmodeller. Resultatene indikerer at selv om COT oppnår litt høyere nøyaktighet, gjør det det til en massiv beregningskostnad. I motsetning til dette gir COD et nesten ekvivalent nivå av korrekthet mens drastisk senker tokenforbruket.

Kilde: Zoom

For Commonsense resonnement ble COD evaluert på Big-Benchs datoforståelse og sportsforståelsesoppgaver. Resultatene viser at COD ikke bare reduserer beregningskrav, men også overgår COT i visse tilfeller, og demonstrerer effektiviteten i praktiske anvendelser.

kilde: Zoom

Symboliske resonnementoppgaver, for eksempel myntflipping prediksjon, testet CODs effektivitet i sterkt strukturerte logiske oppgaver. Evalueringen bekreftet betydelige effektivitetsforbedringer.

begrensninger på små modeller

Mens COD viser seg svært effektive på storskala LLM-er, utfører den mindre effektivt på små modeller (≤3b-parametere) på grunn av mangelen på trening av trening for COD-stil. Resultatene på Qwen2.5 (1.5B og 3B), Llama 3.2 (3B) og Zoom-SLM (2.3B) fremhever et mer betydelig ytelsesgap sammenlignet med barneseng.

kilde: Zoom

Disse funnene antyder at små modeller krever finjustering med data fra COD-stil for å utnytte effektivitetsfordelene fullt ut. Uten tilpasning blir nøyaktighetstap mer uttalt, og begrenser CODs umiddelbare anvendbarhet for lette AI-systemer.

Openai justerer sin AI-modellstrategi

Mens selskaper som Zoom jobber med å raffinere i AI-effektiviteten, er Openai for øyeblikket begrenser modellen. 13. februar 2025 kunngjorde selskapet at det ville avvikle sin uutgitte frittstående O3-modell og konsolidere sine strukturerte resonnementfunksjoner i GPT-5.

Avgjørelsen var i stor grad et svar på økende forvirring blant brukere mot å utvide utvalget av AI-modeller.

openai deretter introdusert Grows grov-6-en som er en por-modell. GPT-5, og skifter fokus fra flere modellalternativer til et mer strømlinjeformet AI-system. Før utgivelsen hadde den underliggende modellen med kodenavnet Orion blitt forventet å bli utgitt som GPT-5.

sin overveldende ytelse i forhold til moderne resonnementsmodeller som Openais O3-min-min, GROK 3 og Claude 3.7 Sonet ser ut til Måned senere tok Microsoft et avgjørende skritt som ytterligere presset Openais forretningsmodell. Microsoft kunngjorde nylig at Copilot-assistenten nå ville tilby Openais O3-mini-høy gratis, og fjernet en lønnsvegg som tidligere hadde begrenset tilgang til den mer avanserte resonnementsmodellen.

før dette trekket, Openais O3-mini-høye CreateS-modellen var bare gjennom betalte abonnementsplaner. Microsofts beslutningsutvikling som er tilgjengelig for Monet som er tilgjengelige, var ALDI-en-Monet til Monet. De fleste dyktige AI-modeller. Dette skiftet understreker også hvorfor effektivitetsgjennombrudd som Zooms torsk blir stadig mer relevante.

DeepSeek beveger seg raskt for å utfordre Openai

I mellomtiden fortsatte konkurransen i AI-rommet intensivering. 26. februar 2025 kunngjorde den kinesiske AI-laboratoriet Deepseek at den akselererte utgivelsen av R2-modellen. Opprinnelig planlagt for mai 2025, ble modellens lansering flyttet opp for å motvirke dominansen av Openai, Alibaba og Google.

DeepSeek’s Rise har falt sammen med en økning i AI-utvikling i Kina, der selskaper søker alternativer til amerikanske utviklede modeller. Selskapet står imidlertid overfor utfordringer utover konkurranse.

Etter DeepSeeks overraskende suksess med sin R1-resonnementsmodell, har andre kinesere angivelig lagre NVIDIAs H20-prosessorer på grunn av å stramme amerikanske handelssanksjoner, og gjenspeiler den voksende vanskeligheten med å anskaffe høy-ytelse.

Mens Openai og DeepSeek foredler sine AI-resonnementstrategier, fokuserer andre selskaper på forskjellige kostnadsreduksjonsmetoder.

Alibaba introduserte nettopp QWQ-32B, en Open-Source AI-modell designet for å levere høye ytelser med reduserte beregningskostnader. Utgivelsen posisjonerer Alibaba som en direkte konkurrent til Openai og DeepSeek, spesielt for bedrifter som leter etter rimelige AI-løsninger.

Amazon er angivelig også inn i AI-effektivitetsløpet, men med en annen strategi. Selskapet utvikler Nova AI, en proprietær modell som forventes å lanseres innen juni 2025.

I motsetning til Alibabas åpen kildekode-tilnærming, integrerer Amazon Nova AI direkte i AWS, og styrker Ai Cloud Service-tilbudet og sannsynligvis den nettopp kunngjorde betalte planen for AI-prevne versjonen av sin Ai Cloud Service, og alexa+. Kostnader, selskaper eksperimenterer med forskjellige strategier. Enten gjennom CODs strukturerte spørsmål, DeepSeeks optimaliserte modeller, eller Alibabas kostnadsvennlige alternativer, beveger AI-firmaer seg utover ren modellstørrelse og fokuserer på langsiktig effektivitet.

Categories: IT Info