Hoe vergelijkt Gemini 2.5 2,5. Openai’s O3-Mini High en GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet en Deepseek R1. De resultaten tonen een model dat op sommige gebieden leidt terwijl ze in andere worden geconfronteerd met concurrentie.
Bron: Google
redeneren en kennis
Een van de meest kritieke aspecten van moderne AI-modellen is hun vermogen om te redeneren door complexe problemen en algemene kennistaken. Op het laatste examen van de mensheid scoorde een multimodale test over wiskunde, geesteswetenschappen en natuurwetenschappen, Gemini 2.5 Pro scoorde 18,8%.
Dit plaatst het voor Openai’s O3-Mini High, die 14,0%bereikte, en Deepseek R1, die verder achterop 8 8,6%liep. Terwijl Gemini 2.5 deze concurrenten beter presteert, werd geen directe vergelijking met de meer geavanceerde GPT-4.5 van Openai verstrekt, waardoor het moeilijk is om te bepalen hoe het model van Google het optreden tegen Openai’s top-tier redeneren AI.
wiskundige prestaties
Wiskundige redenering is een focale punt voor AI-ontwikkeling. Gemini 2.5 Pro behaalde een nauwkeurigheidspercentage van 92,0%op de AIME 2024-gegevensset, een benchmark die is ontworpen om het vermogen van een model te beoordelen om geavanceerde algebra-en getaltheorieproblemen op te lossen. Toen we kijken naar modellen die in staat zijn tot meerdere attestemonten, presteerden GROK 3 Beta en Deepseek R1 echter iets beter, beide scoren 93,3%. Dit suggereert dat hoewel Gemini 2.5 zeer capabel is in een single-attempt-setting, andere modellen kunnen kleine voordelen hebben wanneer ze worden toegestaan om hun antwoorden te herhalen.
[ingebedde inhoud]
Codering & agentische AI
Code-generatie en autonome AI-Assisted Software Developing blijft van de meest concurrerende benchmarks. Op LivecodeBench, een veelgebruikte standaard voor het evalueren van AI-geassisteerde codeermogelijkheden, leads OpenAI’s O3-Mini High-leads met een nauwkeurigheid van 74,1%, overtroffen Gemini 2.5 Pro’s 70,4%.
Ondanks deze, Gemini 2. 5 neemt de lead in code-bewerkingen in de code-poly van de Aider Poly-Poly-Poly van de Aider Poly-Poly van de Aider Polylot Poly-Poly van de Aider Polylot Benchmark, waar het voor de code-bewerkingen van de AIDER POLYGLOTS-POLYGLOTS-POLYGLOT-Benchmark, waar het in het hoofd van de AIDER POLYGLOT-Benchmark, is Claude 3.7 Sonnet en Deepseek R1.
In agentische codering-waar AI echter wordt getest op zijn vermogen om autonoom multi-step software-engineeringtaken te voltooien-overtreft het Claude 3.7-sonnet van Anthropic het, scoort alle grote concurrenten en scoorde 70,3%. Gemini 2.5, op 63,8%, is concurrerend, maar schiet tekort aan de efficiëntie van Claude in de uitvoering van autonome code.
[ingebedde inhoud]
Feitelijke nauwkeurigheid en informatie-ophalen
Feitelijke consistentie blijft een aanzienlijke uitdaging voor AI en prestaties in dit gebied variëren breed. Op de SimpleQA-gegevensset, die het vermogen van een AI test om concurerende en feitelijk nauwkeurige antwoorden te bieden, leidt de GPT-4.5 van Openai met 62,5%, gevolgd door Gemini 2.5 bij 52,9%.
Openai’s O3-Mini High Falls ver achter op 13,8%, terwijl Deepseek R1-scores 30,1%. These results indicate that while Gemini 2.5 performs well in factual accuracy, OpenAI’s more advanced models still hold a strong advantage in ensuring information reliability.
[embedded content]
Multimodal Reasoning & Long-Context Processing
Unlike OpenAI’s models, which currently lack full multimodal support in some benchmarks, Gemini 2.5 demonstrates strong performance in Op visie gebaseerd redeneren. Het scoort 81,7%op de MMMU-benchmark, een test die AI-begrip van visuele gegevens evalueert, ver voor op GPT-4.5 (74,4%) en Claude 3.7 sonnet (75,0%).
Het model van Google is bovendien zeer in staat om langdurige invoer te verwerken. Het bereikt 91,5% nauwkeurigheid op MRCR 128K, die de AI-behoud van grote tekstsequenties evalueert en 83,1% prestaties onderhoudt op een schaal van 1 miljoen taken-varen superieur aan de best beschikbare lange-contextprestaties van Openai van 36,3%.