Google avslöjar Gemini 2.5: Hur det staplas mot modeller från OpenAI, XAI, Anthropic och Deepseek

Google har avslöjat Gemini 2.5 Experimental, sin senaste AI-modell, vilket ger betydande förbättringar av strukturerade resonemang, multimodala kapacitet och långsammanträde. Modellen, som för närvarande är tillgänglig för Gemini Advanced och Google AI Studio-användare, förväntas rulla ut till Vertex AI snart.

Denna utgåva placerar Gemini 2.5 i direkt konkurrens med Xai’s Grok 3 Beta, Openais O3-Mini High, och Deepseeks senaste modeller, alla som har introducerat förstärkta AI-kapital. Förbättrar AI-resonemang

En av de mest anmärkningsvärda uppgraderingarna i Gemini 2.5 är dess förmåga att tillämpa flerstegs logisk verifiering innan man genererar svar, förbättrar dess noggrannhet i komplex problemlösning.

Google beskriver denna som en förfining av dess strukturerade resonemangsstrategi, säkerställer bättre beslut och tillförlitlighet med forskning, enterpris, och en-forskning, och enterproverad regi] 2.5 Pro ships today with a 1 million token context window (2 million coming soon), with strong performance that improves over previous generations”

How Does Gemini 2.5 Compare?

Google has positioned Gemini 2.5 Pro as an advanced reasoning model, but its true capabilities come into focus when compared across various performance dimensions against competing AI models, including OpenAI’s O3-Mini High och GPT-4.5, Xai’s Grok 3 Beta, Anthropic’s Claude 3.7 Sonnet och Deepseek R1. Resultaten visar en modell som leder i vissa områden när de möter konkurrens i andra.

Källa: Google

resonemang och kunskap

En av de mest kritiska aspekterna av moderna AI-modeller är deras förmåga att resonera genom komplexa problem och allmän kunskapsuppgifter. På mänsklighetens sista tentamen, ett multimodalt test som täcker matematik, humaniora och naturvetenskap, gjorde Gemini 2.5 Pro 18,8%.

Detta placerar det framför OpenAi’s O3-Mini High, som uppnådde 14,0%och Deepseek R1, som slog vidare bakom på 8,6%. Medan Gemini 2,5 överträffar dessa konkurrenter, tillhandahölls ingen direkt jämförelse mot OpenAI: s mer avancerade GPT-4,5, vilket gjorde det svårt att bestämma hur Googles modell staplar mot OpenAI: s topp-resonemang AI.

matematical prestanda

matematiska resonemang har varit ett fokus för AI-utveckling. Gemini 2.5 Pro uppnådde en 92,0%noggrannhetsgrad på AIME 2024-datasättet, ett riktmärke som är utformat för att bedöma en modells förmåga att lösa avancerade algebra och antal teoriproblem.

Denna poäng är betydligt högre än OpenAI: s GPT-4,5, som hanterade endast 36,7%och Deepseek R1, vilket landade 79.8. Men när man tittade på modeller som kan multipla försökt svar, presterade Grok 3 Beta och Deepseek R1 något bättre, båda poäng 93,3%. Detta antyder att medan Gemini 2.5 är mycket kapabel i en enskild inställning, kan andra modeller ha små fördelar när de är tillåtna att iterera på sina svar.

[inbäddat innehåll]

kodning och agentisk AI

kodgenerering och autonomt AI-assisted mjukvaruutveckling förblir bland de mest konkurrenserna. On LiveCodeBench, a widely used standard for evaluating AI-assisted coding capabilities, OpenAI’s O3-Mini High leads with a 74.1% accuracy rate, surpassing Gemini 2.5 Pro’s 70.4%.

Despite this, Gemini 2.5 takes the lead in code editing tasks, particularly on the Aider Polyglot benchmark, where it scores 74.0%, ahead of Claude 3.7 Sonnet och Deepseek R1.

Men i agentisk kodning-där AI testas på sin förmåga att autonomt slutföra multi-steg mjukvaruteknikuppgifter-Anthropic’s Claude 3.7 Sonnet överträffar alla stora konkurrenter och poäng 70.3%. Gemini 2,5, 63,8%, är konkurrenskraftig men faller inte med Claude effektivitet i autonom kodutförande.

[inbäddat innehåll]

Faktisk noggrannhet och information omhämtning

faktakonsistens förblir en betydande utmaning för AI, och prestanda i detta område varierar vidsträckt. På SimpleQA-datasättet, som testar en AI: s förmåga att ge kortfattade och faktiskt exakta svar, leder OpenAI: s GPT-4,5 med 62,5%, följt av Gemini 2,5 vid 52,9%.

OpenAI: s O3-Mini High Falls långt efter 13,8%, medan Deepseek R1 Scores 30.1%. These results indicate that while Gemini 2.5 performs well in factual accuracy, OpenAI’s more advanced models still hold a strong advantage in ensuring information reliability.

[embedded content]

Multimodal Reasoning & Long-Context Processing

Unlike OpenAI’s models, which currently lack full multimodal support in some benchmarks, Gemini 2.5 demonstrates strong performance i visionbaserad resonemang. Den får 81,7%på MMMU-riktmärket, ett test som utvärderar AI-förståelse av visuella data, långt före GPT-4,5 (74,4%) och Claude 3.7 Sonnet (75,0%). Den uppnår 91,5% noggrannhet på MRCR 128K, som utvärderar AI-retention av stora textsekvenser, och upprätthåller 83,1% prestanda i en 1 miljon-Token-skala-över överlägsna OpenAI: s bästa tillgängliga långa kontextprestanda på 36,3%.

källa:: Google

Googles Gemini-utveckling: Från Bard till AI-First Integration

Geminis utveckling omformar Googles AI-ekosystem. Ursprungligen lanserades som Bard, övergången till Gemini markerade en förskjutning mot mer avancerad AI-resonemang och djup integration över Googles tjänster. Denna förskjutning har bara påskyndats med den senaste utvecklingen.

En av de största förändringarna är Googles beslut att ersätta Google Assistant med Gemini AI, vilket signalerar sitt åtagande att göra Gemini till sin flaggskepp AI-assistent. Till skillnad från Google Assistant, som förlitade sig på fördefinierade svar, erbjuder Gemini realtid multimodal kapacitet, inklusive skärmbaserad AI-assistans och levande kamerainteraktioner via Gemini Live.

Google är också inbäddade Gemini AI djupare i sina produktivitetsverktyg. Den senaste Google Drive-uppdateringen integrerar Gemini för smarta filförslag och AI-genererade sammanfattningar, vilket förbättrar dokumentnavigering. Samtidigt har Gmail nu AI-driven sökning, vilket gör e-posthämtning mer intuitiv.

Googles utvidgning av NoteBookLM är ytterligare ett steg mot AI-driven kunskapshantering. Den nya Mind Maps-funktionen, som introducerades i mars 2025, gör det möjligt för användare att visuellt organisera forskning, komplettera AI-genererade anteckningar.

Konkurrenslandskapet: Google vs OpenAi vs Microsoft

som AI-resonemangsmodeller utvecklas, konkurrensen mellan Google, OpenAI och Microsoft fortsätter. OpenAI är fortfarande ledande och strukturerad resonemang, medan Google satsar på multimodal AI, personalisering och produktivitetsintegrationer. Samtidigt utnyttjar Microsoft copilot AI till konkurrerande Gemini i affärsapplikationer, och Adobe driver AI-driven automatisering i kreativa verktyg.

Striden för AI-driven sökassistenter värmer också upp. OpenAI arbetar enligt uppgift med en chatgpt-driven sökupplevelse, medan Googles senaste uppdateringar gör det möjligt för Gemini att använda sökhistorik för personliga svar. Denna rörelse ger både nya AI-kapaciteter och integritetsproblem, eftersom Google syftar till att förfina AI-interaktioner samtidigt som man balanserar reglerande granskning.

Med Gemini 2.5 Pro gör Google ett starkt tryck för avancerad resonemang, multimodal AI och djup integration i användararbetsflöden. Men utmaningar kvarstår, särskilt i faktisk konsistens och agentisk AI, där konkurrenter som OpenAI och Anthropic fortfarande har en fördel. Som AI-drivna assistenter, sökmodeller och produktivitetsverktyg fortsätter att utvecklas kommer nästa generation av AI-konkurrens sannolikt att centrera kring personalisering, resonemang och multimodal interaktion i realtid.

Google avslöjar Gemini 2.5: Hur det staplas mot modeller från OpenAI, XAI, Anthropic och Deepseek

Published by All Things Windows on March 25, 2025

How Does Gemini 2.5 Compare?

resonemang och kunskap

matematical prestanda

kodning och agentisk AI

Faktisk noggrannhet och information omhämtning

Multimodal Reasoning & Long-Context Processing

Googles Gemini-utveckling: Från Bard till AI-First Integration

Konkurrenslandskapet: Google vs OpenAi vs Microsoft

IT Info

Antropisk råder i tidig omgång av sångtexter Copyright Case

IT Info

U.S. utvidgar Kina AI-chip exportförbudet igen

IT Info

Inaktivera APP-installationer på icke-system-enheter i Windows 11

Google avslöjar Gemini 2.5: Hur det staplas mot modeller från OpenAI, XAI, Anthropic och Deepseek

Published by All Things Windows on March 25, 2025

How Does Gemini 2.5 Compare?

resonemang och kunskap

matematical prestanda

kodning och agentisk AI

Faktisk noggrannhet och information omhämtning

Multimodal Reasoning & Long-Context Processing

Googles Gemini-utveckling: Från Bard till AI-First Integration

Konkurrenslandskapet: Google vs OpenAi vs Microsoft

Related Posts

IT Info

Antropisk råder i tidig omgång av sångtexter Copyright Case

IT Info

U.S. utvidgar Kina AI-chip exportförbudet igen

IT Info

Inaktivera APP-installationer på icke-system-enheter i Windows 11