A
A Google kibővítette a Gemini AI modell felállását a Gemini 2.5 Flash-rel, amely az alacsonyabb késleltetés, az egyszerűsített teljesítmény és a költséghatékonyság érdekében épített modell. A Flash-et olyan magas frekvenciájú feladatokhoz tervezték, mint például a dokumentumok összefoglalása, a képek felirata és az adatok osztályozása, ahol a reagálás fontosabb, mint a komplex érvelés vagy a kreatív folyékonyság. href=”https://cloud.google.com/blog/products/ai-machine-learning/gemini-2-5-pro-flash-on-vertex-ai”Target=”_ üres”> Gemini 2.5 Flash már elérhető a Gemini Advanced, a Gemini API, a Vertex AI és a Google Ai Studio segítségével. Noha ugyanazt az architektúrát és az 1 millió token kontextus ablakot osztja, mint a Gemini 1.5 Pro, a Flash a valós idejű reagálásra és a méretezett telepítésre van optimalizálva. Ez a rugalmas rendszer lehetővé teszi a csapatok számára, hogy pontosabban kiszámítsák, a pontosságot és a költségeket a feladattól függően kiegyensúlyozzák. A 2.5 Flash-t nem indították el elszigetelten. Ez a Gemini 2.5 Pro közelmúltbeli bevezetését követi, a Google csúcskategóriás érvelési modelljét, amely olyan összetettebb feladatokra irányul, mint például a kutatási elemzés, az ügynöki kód generálása és a döntéshozatal. A Google szerint a 2.5 PRO többlépcsős logikai ellenőrzést alkalmaz, mielőtt eredményt hozna-ez egy olyan megközelítés, amely jelentősen növeli a megbízhatóságot a magas tétű forgatókönyvekben. A Benchmarks azt mutatja, hogy a 2,5 Pro 92,0%-os pontosságot ért el az AIME 2024 adatkészleten, felülmúlva az OpenAI GPT-4,5-et (36,7%), és a legfontosabb pontszámokat adta a multimodális látáson és a hosszú kontextus-átfogó teszteknél. Kimeneti tokenek. Ezzel szemben a Flash célja a valós idejű AI-igények támogatása a méretarányban-ideális a vállalkozások számára, amelyek naponta több millió lekérdezést futtatnak az ügyféllel szembeni eszközökön és a háttér-automatizálásokon. Gondolkodás
A Flash DNS-je a Gemini 2.0 Flash gondolkodáshoz vezethető vissza, amelyet 2024 decemberében vezettek be egy kísérleti modellként, amely az érvelési lépéseit láthatóvá tette a felhasználók számára. A Flash gondolkodás egy új „gondolkodási módot” mutatott be, és támogatta a multimodális bemenetet az indításból-egy válasz az Openai korai O1 érvelési modelljeire, amelynek kezdetben hiányzott a képpapírok támogatása. href=”https://x.com/jeffdean/status/1869789813232341267″Target=”_ üres”> mondta Jeff Dean x-en , a Google DeepMind fő tudósa, a kiadásról. Hozzátette: „Ígéretes eredményeket látunk, amikor növeljük a következtetési idő számítását.”
Ez a modell a chatbot aréna ranglistáját az Openai O1-Preview és az O1-Mini ellen is, például a kreatív írás, a következő oktatás és a hosszú formájú kérések között. A Flash nem újjáéleszti a gondolkodási mód felületét közvetlenül, de folytatja a vonalat azáltal, hogy a skálázott, gyors teljesítményre összpontosít, opcionális érvelés-fejlesztésekkel az Ikrek API-n keresztül. href=”https://ai.google.dev/gemini-api/docs/thinking-mode#whats-next”cél=”_ üres”> Gemini API dokumentáció , fenntartva a folytonosságot a Gemini ökoszisztéma-ban, akár a specifikus funkciók is.
A szigorú adatkezelési követelményekkel rendelkező vállalkozások támogatása érdekében a Google azt tervezi, hogy a Gemini modelleket-beleértve a Flash-t is-bevezeti a helyszíni használatra a Google Distributed Cloud (GDC) segítségével. href=”https://blog.google/products/google-cloud/ironwood-tpu—ininference/”cél=”_ üres”> Ironwood tpus , a vállalat hetedik generációs chipjei akár 42,5 exaflop-t is büszkélkedhetnek. Ezek az egyéni gyorsítók várhatóan feltöltik a következtetéseket a Google AI platformon. Az ilyen hatalmas számítási potenciál azonban kérdéseket vet fel az energiafogyasztással és a működési hatékonysággal kapcsolatban-különösen az AI rendszerek számára, amelyek könnyűek és költséghatékonyak. A Google leírja a Gemini 2.5 Flash-et „kísérleti”-nek, és még nem tett közzé kísérő biztonsági vagy műszaki jelentéseket. Ez egy olyan növekvő tendencia része, ahol a Google újabb AI modelleket szállított a megfelelő biztonsági dokumentáció közzététele előtt-az átláthatósággal kapcsolatos aggodalmak feltárása, különösen a széles telepítésre irányuló modellek esetében. A Google, mint a Generative AI verseny többi szereplője, elmozdul az általános „egymodell-of-for-overinging” megközelítéstől és az optimalizált eszközök ökoszisztémáinak felé. Míg a Gemini 2.5 PRO érvelés és pontosság szempontjából eléri a mennyezetet, addig a Flash megalapozott, produkciós lehetőség olyan csapatok számára, amelyek sebességgel értékelik a megbízhatóságot. Nyilvános referenciaértékek vagy műszaki közzétételek nélkül nehéz felmérni, hogy miként áll össze a versenytársak könnyebb modelljeivel szemben, mint például az Openai (O3-MINI), az Antropic (Claude Instant) vagy az XAI (Grok Mini). Tudjuk, hogy a Flash a nyomás alatt a teljesítményre épült-ahol a mennyiség, a válaszidő és a költségvetési korlátozások az elsődleges korlátozások. Mert a mai AI tájban a sebesség már nem elég-a mögötte álló rendszereknek szintén fel kell állniuk a vizsgálatra.