Google ka zgjeruar formacionin e tij të modelit Binjakët AI me Gemini 2.5 Flash, një model i krijuar me qëllim për vonesën më të ulët, performancën e thjeshtuar dhe efikasitetin e kostos. Flash është krijuar për detyra me frekuencë të lartë si përmbledhja href=”https://cloud.google.com/blog/products/ai-machine-learning/gemini-2-5-pro-flash-on-vertex-ai”target=”_ bosh”> gemini 2.5 flash tani është në dispozicion përmes Gemini Advanced, Gemini API, Vertex AI, dhe Google AI Studio. Megjithëse ndan të njëjtën arkitekturë dhe një dritare të kontekstit 1 milion-grepa si Gemini 1.5 Pro, Flash është optimizuar për përgjigje në kohë reale dhe vendosje të shkallëzuar. Ky sistem fleksibël u jep ekipeve mundësinë për të alokuar llogaritjen më saktë, duke balancuar saktësinë dhe koston në varësi të detyrës.
Binjakët 2.5 Flash nuk u nisën në izolim. Ai ndjek prezantimin e fundit të Gemini 2.5 Pro, modeli i arsyetimit të lartë të Google, i synuar në detyra më komplekse si analiza e hulumtimit, gjenerimi i kodit agjent dhe mbështetja e vendimeve. Google thotë se 2.5 Pro aplikon verifikimin e logjikës me shumë hapa përpara se të prodhojë një rezultat-një qasje që rrit ndjeshëm besueshmërinë në skenarët e aksioneve të larta. Standardet tregojnë se 2.5 Pro arriti saktësi 92.0% në të dhënat e AIME 2024, duke tejkaluar GPT-4.5 të Openai (36.7%), dhe ajo dha rezultate më të larta në vizionin multimodal dhe testet e të kuptuarit të kontekstit të gjatë. shenja. Në të kundërt, Flash ka për qëllim të mbështesë nevojat e AI në kohë reale në shkallë-ideale për bizneset që drejtojnë miliona pyetje në ditë nëpër mjete të klientëve dhe automatizimet e backend. Mendimi
ADN-ja e flashit mund të gjurmohet përsëri në Binjak 2.0 Thinking Flash, i prezantuar në dhjetor 2024 si një model eksperimental që i bëri hapat e tij të arsyetimit të dukshëm për përdoruesit. Thinking Flash Thinking paraqiti një roman”Mënyra e të menduarit”dhe mbështeti inputin multimodal nga nisja-një përgjigje ndaj modeleve të arsyetimit të hershëm të Openai, të cilave fillimisht i mungonte mbështetja e hyrjes së imazhit. href=”https://x.com/jeffdean/status/1869789813232341267″target=”_ bosh”> tha Jeff Dean në x , shkencëtar kryesor në Google Deepmind, në lidhje me lëshimin. Ai shtoi,”Ne shohim rezultate premtuese kur rrisim llogaritjen e kohës së konkluzionit.”Flash nuk e ringjallë ndërfaqen e modalitetit të të menduarit drejtpërdrejt, por ajo vazhdon linjën duke u përqëndruar në performancën e shkallëzuar, të shpejtë me përmirësime të arsyetimit opsional përmes API-së së Gemini. href=”https://ai.google.dev/gemini-api/docs/thinking-mode#whats-next”target=”_ bosh”> dokumentacionin API GEMINI , duke ruajtur vazhdimësinë në të gjithë ekosistemin e Gemini. Ndërmarrjet me kërkesa të rrepta për qeverisjen e të dhënave, Google planifikon të nxjerrë modelet e Binjakëve-përfshirë Flash-për përdorimin në ambiente përmes Google Shpërndarë Cloud (GDC) duke filluar në Q3 2025. Kjo veprim hap derën për adoptim më të gjerë në sektorët e rregulluar si financat, kujdesin shëndetësor dhe shërbimet qeveritare. href=”https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/”target=”_ bosh”> tpus i hekurt i hekurt , patate të skuqura të përgjithshme të kompanisë që mburren deri në 42.5 ekzaflops të llogaritjes. Këto përshpejtues të personalizuar pritet të mbingarkojnë ngarkesat e punës të konkluzionit nëpër platformat e AI të Google. Sidoqoftë, një potencial i tillë masiv i potencialit ngre pyetje në lidhje me konsumin e energjisë dhe efikasitetin operacional-veçanërisht për sistemet e AI që synojnë të jenë të lehta dhe me kosto efektive. Google përshkruan Gemini 2.5 Flash si”eksperimentale”, dhe nuk ka botuar raporte shoqëruese të sigurisë ose teknike. Kjo është pjesë e një trendi në rritje ku Google ka dërguar modele më të reja të AI para se të botojë dokumentacionin përkatës të sigurisë-ngritja e shqetësimeve për transparencën, veçanërisht për modelet që synojnë vendosjen e gjerë. Google, si lojtarët e tjerë në garën gjeneruese të AI, po largohet nga qasja e gjeneralistit”një model-për-gjithçka”dhe drejt ekosistemeve të mjeteve të optimizuara. Ndërsa Gemini 2.5 Pro arrin tavanin për sa i përket arsyetimit dhe saktësisë, Flash është një opsion i bazuar në prodhim, për ekipet që vlerësojnë besueshmërinë me shpejtësi.
Kjo tha, jo gjithçka rreth Flash është e qartë. Pa standarde publike ose zbulime teknike, është e vështirë të vlerësohet se si grumbullohet kundër modeleve më të lehta nga konkurrentët si Openai (O3-Mini), Antropic (Claude Instant), ose Xai (Grok Mini). Ajo që ne dimë është se Flash është ndërtuar për performancën nën presion-ku vëllimi, koha e përgjigjes dhe kufizimet e buxhetit janë kufizimet kryesore. Sepse në peizazhin e sotëm të AI, shpejtësia nuk është më e mjaftueshme-sistemet që qëndrojnë pas tij gjithashtu duhet të qëndrojnë në kontroll.