Google heeft Gemini 2.5 experimenteel onthuld, het nieuwste AI-model, waardoor aanzienlijke verbeteringen in gestructureerd redeneren, multimodale mogelijkheden en begrip van lang context worden gebracht. The model, which is currently available to Gemini Advanced and Google AI Studio users, is expected to roll out to Vertex AI soon.

This release places Gemini 2.5 in direct competition with xAI’s Grok 3 Beta, OpenAI’s O3-Mini High, and DeepSeek’s latest models, all of which have recently introduced enhanced AI reasoning capabilities.

How Gemini 2.5 Verbetert AI Redenering

Een van de meest opvallende upgrades in Gemini 2.5 is het vermogen om meerstaps logische verificatie toe te passen voordat de reacties worden gegenereerd, waardoor de nauwkeurigheid in complexe probleemoplossing wordt verbeterd.

Google describes this as a refinement of its structured reasoning approach, ensuring better decision-making and reliability in research, enterprise, and AI-powered assistance tools, Schrijven”[Gemini] 2.5 Pro-schepen vandaag met een contextvenster van 1 miljoen token (2 miljoen binnenkort), met sterke prestaties die verbetert ten opzichte van vorige generaties”

Hoe vergelijkt Gemini 2.5 2,5. Openai’s O3-Mini High en GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet en Deepseek R1. De resultaten tonen een model dat op sommige gebieden leidt terwijl ze in andere worden geconfronteerd met concurrentie.

Bron: Google

redeneren en kennis

Een van de meest kritieke aspecten van moderne AI-modellen is hun vermogen om te redeneren door complexe problemen en algemene kennistaken. Op het laatste examen van de mensheid scoorde een multimodale test over wiskunde, geesteswetenschappen en natuurwetenschappen, Gemini 2.5 Pro scoorde 18,8%.

Dit plaatst het voor Openai’s O3-Mini High, die 14,0%bereikte, en Deepseek R1, die verder achterop 8 8,6%liep. Terwijl Gemini 2.5 deze concurrenten beter presteert, werd geen directe vergelijking met de meer geavanceerde GPT-4.5 van Openai verstrekt, waardoor het moeilijk is om te bepalen hoe het model van Google het optreden tegen Openai’s top-tier redeneren AI.

wiskundige prestaties

Wiskundige redenering is een focale punt voor AI-ontwikkeling. Gemini 2.5 Pro behaalde een nauwkeurigheidspercentage van 92,0%op de AIME 2024-gegevensset, een benchmark die is ontworpen om het vermogen van een model te beoordelen om geavanceerde algebra-en getaltheorieproblemen op te lossen. Toen we kijken naar modellen die in staat zijn tot meerdere attestemonten, presteerden GROK 3 Beta en Deepseek R1 echter iets beter, beide scoren 93,3%. Dit suggereert dat hoewel Gemini 2.5 zeer capabel is in een single-attempt-setting, andere modellen kunnen kleine voordelen hebben wanneer ze worden toegestaan ​​om hun antwoorden te herhalen.

[ingebedde inhoud]

Codering & agentische AI ​​

Code-generatie en autonome AI-Assisted Software Developing blijft van de meest concurrerende benchmarks. Op LivecodeBench, een veelgebruikte standaard voor het evalueren van AI-geassisteerde codeermogelijkheden, leads OpenAI’s O3-Mini High-leads met een nauwkeurigheid van 74,1%, overtroffen Gemini 2.5 Pro’s 70,4%.

Ondanks deze, Gemini 2. 5 neemt de lead in code-bewerkingen in de code-poly van de Aider Poly-Poly-Poly van de Aider Poly-Poly van de Aider Polylot Poly-Poly van de Aider Polylot Benchmark, waar het voor de code-bewerkingen van de AIDER POLYGLOTS-POLYGLOTS-POLYGLOT-Benchmark, waar het in het hoofd van de AIDER POLYGLOT-Benchmark, is Claude 3.7 Sonnet en Deepseek R1.

In agentische codering-waar AI echter wordt getest op zijn vermogen om autonoom multi-step software-engineeringtaken te voltooien-overtreft het Claude 3.7-sonnet van Anthropic het, scoort alle grote concurrenten en scoorde 70,3%. Gemini 2.5, op 63,8%, is concurrerend, maar schiet tekort aan de efficiëntie van Claude in de uitvoering van autonome code.

[ingebedde inhoud]

Feitelijke nauwkeurigheid en informatie-ophalen

Feitelijke consistentie blijft een aanzienlijke uitdaging voor AI en prestaties in dit gebied variëren breed. Op de SimpleQA-gegevensset, die het vermogen van een AI test om concurerende en feitelijk nauwkeurige antwoorden te bieden, leidt de GPT-4.5 van Openai met 62,5%, gevolgd door Gemini 2.5 bij 52,9%.

Openai’s O3-Mini High Falls ver achter op 13,8%, terwijl Deepseek R1-scores 30,1%. These results indicate that while Gemini 2.5 performs well in factual accuracy, OpenAI’s more advanced models still hold a strong advantage in ensuring information reliability.

[embedded content]

Multimodal Reasoning & Long-Context Processing

Unlike OpenAI’s models, which currently lack full multimodal support in some benchmarks, Gemini 2.5 demonstrates strong performance in Op visie gebaseerd redeneren. Het scoort 81,7%op de MMMU-benchmark, een test die AI-begrip van visuele gegevens evalueert, ver voor op GPT-4.5 (74,4%) en Claude 3.7 sonnet (75,0%).

Het model van Google is bovendien zeer in staat om langdurige invoer te verwerken. Het bereikt 91,5% nauwkeurigheid op MRCR 128K, die de AI-behoud van grote tekstsequenties evalueert en 83,1% prestaties onderhoudt op een schaal van 1 miljoen taken-varen superieur aan de best beschikbare lange-contextprestaties van Openai van 36,3%.

De strijd om AI-aangedreven zoekassistenten is ook warm. OpenAI werkt naar verluidt aan een chatgpt-aangedreven zoekervaring, terwijl de nieuwste updates van Google Gemini in staat stellen zoekgeschiedenis te gebruiken voor gepersonaliseerde antwoorden. Deze stap brengt zowel nieuwe AI-mogelijkheden als privacyproblemen met zich mee, omdat Google wil om AI-interacties te verfijnen en tegelijkertijd de regelgevende controle in evenwicht te brengen.

Met Gemini 2.5 Pro maakt Google een sterke drang naar geavanceerde redenering, multimodale AI en diepe integratie in gebruikerswerkflows. Er blijven echter uitdagingen bestaan, met name in feitelijke consistentie en agentische AI, waar concurrenten zoals Openai en Anthropic nog steeds een voordeel hebben. Terwijl AI-aangedreven assistenten, zoekmodellen en productiviteitstools blijven evolueren, zal de volgende generatie AI-competitie waarschijnlijk centreren rond personalisatie, redeneren en realtime multimodale interactie.

Categories: IT Info