Google ka zbuluar Binjakët 2.5 eksperimentale, modelin e tij të fundit të AI, duke sjellë përmirësime të konsiderueshme në arsyetimin e strukturuar, aftësi multimodale dhe kuptim të kontekstit të gjatë. Modeli, i cili aktualisht është i disponueshëm për përdoruesit e Gemini Advanced dhe Google AI Studio, pritet të dalë së shpejti në Vertex AI. Përmirëson arsyetimin e AI

Një nga azhurnimet më të dukshme në Gemini 2.5 është aftësia e tij për të aplikuar verifikimin logjik me shumë hapa përpara se të gjeneroni përgjigje, duke përmirësuar saktësinë e tij në zgjidhjen komplekse të problemeve. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mty4ntoxodu5-1; base64, phn2zyb2awv3qm94psiwidagmtaynca2mj kiiHdpZHropsixmdi0iibozwlnahq9iJyyOSigEG1Sbnm9IMh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Google përshkruan këtë si një rafinim të qasjes së tij të strukturuar të arsyetimit, duke siguruar vendimmarrje më të mirë dhe besueshmëri në hulumtim, ndërmarrje”> Google, ai, si një rafinim i mjeteve të tij të strukturuar të arsyetimit, duke siguruar vendimmarrje më të mirë në hulumtim, ndërmarrje”. Shkrimi”[Binjakët] 2.5 Anije Pro sot me një dritare të kontekstit 1 milion Token (2 milion së shpejti), me performancë të fortë që përmirësohet gjatë gjeneratave të mëparshme”

Si e krahason Gemini 2.5 Openai’s O3-Mini High dhe GPT-4.5, Grok 3 Beta i Xai, Claude 3.7 Antropic’s Claude 3.7, dhe Deepseek R1. Rezultatet tregojnë një model që çon në disa zona ndërsa përballet me konkurrencën në të tjera. Në provimin e fundit të njerëzimit, një test multimodal që përfshin matematikën, shkencat njerëzore dhe shkencat natyrore, Gemini 2.5 Pro shënoi 18.8%. Ndërsa Gemini 2.5 i tejkalon këta konkurrentë, nuk u sigurua asnjë krahasim i drejtpërdrejtë kundër GPT-4.5 më të përparuar të Openai, duke e bërë të vështirë të përcaktohet se si modeli i Google-it grumbullohet kundër arsyetimit të nivelit të lartë të Openai AI. Gemini 2.5 Pro arriti një normë saktësie 92.0%në të dhënat e AIME 2024, një pikë referimi e krijuar për të vlerësuar aftësinë e një modeli për të zgjidhur problemet e përparuara të algjebrës dhe teorisë së numrave. Sidoqoftë, kur shikon modele të afta për përgjigje të shumëfishtë, Grok 3 Beta dhe Deepseek R1 performuan pak më mirë, të dy shënuan 93.3%. Kjo sugjeron që ndërsa Gemini 2.5 është shumë i aftë në një mjedis me një konstruksion të vetëm, modele të tjera mund të kenë avantazhe të vogla kur lejohen të përsërisin përgjigjet e tyre. Në livecodeBench, një standard i përdorur gjerësisht për vlerësimin e aftësive të kodifikimit të asistuar nga AI, Openai O3-Mini High çon me një normë saktësie 74.1%, duke tejkaluar Gemini 2.5 Pro Pro 70.4% Claude 3.7 Sonnet dhe Deepseek R1. GEMINI 2.5, në 63.8%, është konkurrues, por nuk i përket efikasitetit të Claude në ekzekutimin e kodit autonome. Në të dhënat e SimpleQA, e cila teston aftësinë e një AI për të siguruar përgjigje koncize dhe faktikisht të sakta, GPT-4.5 e Openai çon me 62.5%, e ndjekur nga Gemini 2.5 në 52.9%. Këto rezultate tregojnë se ndërsa Gemini 2.5 performon mirë në saktësi faktike, modelet më të përparuara të Openai ende mbajnë një avantazh të fortë në sigurimin e besueshmërisë së informacionit.

[Përmbajtja e ngulitur]

Arsyetimi i bazuar në vizion. Ajo shënon 81.7%në standardin MMMU, një test që vlerëson kuptimin e AI të të dhënave vizuale, shumë përpara GPT-4.5 (74.4%) dhe Claude 3.7 Sonnet (75.0%). Ajo arrin saktësi 91.5% në MRCR 128K, e cila vlerëson mbajtjen e AI të sekuencave të mëdha të tekstit, dhe mban performancën 83.1% në një shkallë 1 milion-togë-e superiore ndaj performancës më të mirë të kontekstit të gjatë të Openai prej 36.3%. src=”të dhëna: imazh/svg+xml; nitro-empty-id=mtc2ndoxodk5-1; base64, phn2zywv3qm94psiwidagnzcwidewmjqiih dpzhropsi3nzaiighlawdodd0imtayncigeG1Sbnm9imH0Dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> Burimi: Google

Evolucioni i Binjakëve të Google: Nga BARD në AI-First Integration

Evolucioni i Binjakëve po riformulon ekosistemin AI të Google. Fillimisht u nis si BARD, kalimi në Binjakët shënoi një zhvendosje drejt arsyetimit më të përparuar të AI dhe integrimit të thellë në shërbimet e Google. Kjo ndërrim është përshpejtuar vetëm me zhvillimet e fundit. Për dallim nga Google Assistant, i cili mbështetej në përgjigjet e paracaktuara, Binjakët ofron aftësi multimodale në kohë reale, duke përfshirë ndihmën e AI të bazuar në ekran dhe ndërveprimet e kamerave të drejtpërdrejta përmes Gemini Live. Përditësimi i fundit i Google Drive integron Binjakët për sugjerime të skedarëve inteligjentë dhe përmbledhje të gjeneruara nga AI, duke përmirësuar navigimin e dokumenteve. Ndërkohë, Gmail tani përmban kërkimin me AI, duke e bërë rikthimin e postës elektronike më intuitive. Karakteristika e Re Mind Maps Maps, e prezantuar në Mars 2025, lejon përdoruesit të organizojnë vizualisht hulumtime, duke plotësuar shënimet e krijuara nga AI. Openai mbetet një udhëheqës në saktësi faktike dhe arsyetim të strukturuar, ndërsa Google po bastet për AI multimodale, personalizimin dhe integrimet e produktivitetit. Ndërkohë, Microsoft po shfrytëzon Copilot AI për të rivalizuar Binjakët në aplikacionet e biznesit, dhe Adobe po shtyn automatizimin e AI-së në mjetet krijuese. Openai raportohet se po punon në një përvojë kërkimi me fuqi chatgpt, ndërsa azhurnimet e fundit të Google i lejojnë Binjakët të përdorin historinë e kërkimit për përgjigjet e personalizuara. Kjo veprim sjell të dy aftësitë e reja të AI dhe shqetësimet e intimitetit, pasi Google synon të rafinojë ndërveprimet e AI ndërsa balancon kontrollin rregullator. Sidoqoftë, sfidat mbeten, veçanërisht në konsistencën faktike dhe AI ​​agjentike, ku konkurrentët si Openai dhe Antropic ende mbajnë një avantazh. Ndërsa asistentët me AI, modelet e kërkimit dhe mjetet e produktivitetit vazhdojnë të evoluojnë, gjenerata e ardhshme e konkurrencës AI ka të ngjarë të përqendrohet rreth personalizimit, arsyetimit dhe ndërveprimit multimodal në kohë reale.

Categories: IT Info