Google și-a împins ieri modelul său GEMINI 2.5 Flash AI în previzualizare publică ieri, făcându-l accesibil prin mai multe canale: aplicația Gemini orientată cu consumatori și platforme de dezvoltatori, inclusiv API-ul Gemini prin Google AI Studio și vertex AI href=”https://blog.google/products/gemini/gemini-2-5-flash-preview/”target=”_ blank”> Anunțul Google Ca primul său „model de raționament complet hibrid,„ 2,5 Flash oferă unic al dezvoltatorilor controale explicite asupra procesului de „gândire” al AI, și latencului, care urmărește să ofere un instrument flexibil pentru a face performanțe, costuri, costuri, și latenc, pentru latenc sarcini cu volum mare. Google își poziționează raportul performanță-cost ca să-l pună pe „Pareto Frontier”, sugerând un echilibru optim pentru anumite sarcini de lucru.

Pentru utilizatorii finali, modelul apare în Gemini App și site-ul simplu ca „2.5 flash flash (experimental),”Suplluiting the Gem. Modelul de gândire flash care a ieșit la suprafață experimental în decembrie 2024 și, nu a absolvit niciodată din acea fază.

Această iterație 2.5 este descrisă ca oferind o capacitate de raționament substanțial îmbunătățită în comparație cu generarea de 2,0 flash, în timp ce este proiectată să fie mai rapidă și mai ieftină decât anunțată în martie în martie. Versiunea pentru aplicații de consum acceptă în prezent funcții precum Canvas Google pentru rafinament de cod și text, deși un Google a indicat că va urma un suport de cercetare profundă mai târziu.

Sursa: Google

Legătoarele de dezvoltatori pentru raționamentul AI și costurile

Funcția definitorie a lui Gemeni 2.5 Flash Flash este sistemul său de raționament hibrid, controlabil prin intermediul API gemini . Dezvoltatorii pot comuta procesul de „gândire” în întregime pentru o viteză maximă sau îl pot permite pentru interogări complexe. O mai mare granularitate vine prin reglabil “bugete de gândire”, În esență, un platou pe calculatoarele de calcul utilizate pentru a raționa pe întreprindere. la sarcini analitice. Acest nivel de control permite gestionarea precisă a compromisului între calitatea răspunsului, latența și costul operațional.

Această adaptabilitate este reflectată în previzualizare API Prețuri : 0,15 USD pe milion de tokens. Producția costă 0,60 USD pe un milion de jetoane cu gândire cu dizabilități, crescând la 3,50 dolari pe milion de jetoane atunci când raționamentul este activ. Google positions this non-reasoning cost structure competitively against models like OpenAI’s o4-mini, though o4-mini demonstrates superior performance benchmarks at a higher price point.

The pricing structure reinforces Flash’s suitability for high-volume, cost-sensitive uses like summarization, chat apps, captioning, and data extraction, examples highlighted by Google’s Developer Blog .

sursă: Google

poziționarea blițului în familia Gemini și evoluția sa

Gemini 2.5 Flash a fost discutat pentru prima dată public pe 9 aprilie, introdus ca model distinct de capacitățile complexe de raționament ale 2.5 Pro. În ciuda concentrării lui Flash asupra vitezei, păstrează marea fereastră de context de 1 milion de jetoane caracteristice a liniei Pro, permițându-i să gestioneze intrări extinse.

Conceptul de „gândire” de bază a evoluat în urma modelului experimental de gândire Flash 2.0 experimentală din decembrie 2024. Acea iterație anterioară a avut ca scop să ofere transparență raționament, parțial ca răspuns la modelele O1 O1 ale Openai. În ceea ce privește acest experiment, Jeff Dean, omul de știință al Google Deepmind, a declarat despre X, „Construit pe viteza și performanța 2.0 Flash, acest model este instruit să folosească gândurile pentru a-și consolida raționamentul. Și vedem rezultate promițătoare atunci când creștem calculul de timp de inferență. Consultați această demonstrație în care modelul rezolvă o problemă de fizică și explică raționamentul acesteia. pic.twitter.com/nl0hyj7zfs

-Jeff Dean (@Jeffdean) 19 decembrie 2024

În timp ce interfața explicată care arată „gânduri” nu face parte reprezintă evoluția funcțională a acestei idei.

parte a unei expansiuni mai largi a Gemeniului, pe fondul controlului

Rolarea a 2,5 flash se încadrează în mai larg în Google, accelerarea implementării AI în serviciile sale, unirea de adaosuri recente, cum ar fi generarea VIDE VIDE în Google.

Google își propune să utilizeze această fază de previzualizare pentru a perfecționa „gândirea dinamică” a modelului bazată pe feedback-ul dezvoltatorilor, în special în ceea ce privește cazurile „în care se gândește sub-gândiri sau se gândește”, după cum a menționat Doshi. Rămâne distincția ca dezvoltatorii să obțină controale API granulare, în timp ce aplicația de consum actuală oferă FLASL ca o singură alegere experimentală, probabil cu raționamentul activat în mod implicit.

Cu toate acestea, după cum s-a menționat atunci când a fost anunțată prima dată Flash, această previzualizare publică ajunge fără a însoți rapoarte tehnice sau de siguranță detaliate. Această lipsă de transparență continuă un model observat cu unele versiuni recente de AI, atrăgând controlul, în special pentru modelele puse la dispoziție pe scară largă. În timp ce Google planifică evoluții viitoare, cum ar fi disponibilitatea locală și utilizarea de noi TPU-uri, pasul imediat implică colectarea datelor din lumea reală pentru a ghida 2,5 flash către o potențială versiune generală.

Categories: IT Info