Verdens sjakkmester Magnus Carlsens uanstrengte seier over Chatgpt 10. juli illustrerer sterkt den paradoksale tilstanden til AI-industrien. Mens Carlsen metodisk demonterte den populære chatbot, er AI-laboratorier låst i en voldsom kamp om overherredømme, og utpekte supermenneskelige prestasjoner.

I midten av juli hevdet både Google og Openai at modellene deres oppnådde en bragd av avansert resonnement. Likevel er denne fremgangen skyggelagt av kontroverser, ettersom modeller som Xais Grok 4 møter kritikk for å bli overfitt for benchmarks, partiske og usikre.

Denne kontrasten mellom spesialiserte triumfer og virkelige feil understreker det kaotiske, høye innsatsløp for å definere fremtiden til

En Grandmaster’s Checkmate setter CARTS-scenen. I et innlegg på X delte han skjermbilder av sin avgjørende seier mot Chatgpt, og kvittet ganske enkelt:”Jeg kjeder meg noen ganger mens jeg reiser.”Kampen fungerte som en kraftig, offentlig demonstrasjon av et elite menneskesinn som demonterte en generell formål ai.

Carlsen er ikke bare noen stormester; Han regnes som den beste sjakkspilleren i historien. Norsken har vunnet verdens sjakkmesterskapet fem ganger, sist i 2021, og holder Verdens høyeste FID-vurdering på 2839 . Til tross for sin dominans, har han ikke konkurrert i det tradisjonelle mesterskapet siden hans siste seier, og siterer en mangel på motivasjon, som understreker hans unike posisjon i sporten. Denne bakgrunnen etablerer ham som det ultimate menneskelige målestokken i sjakk, og gjør hans tilfeldige seier over en ledende AI som var spesielt viktig.

Seieren var ikke bare en seier; Det var en feilfri demontering. Carlsen sjekket AI på bare 53 trekk uten å miste et enkelt stykke. I følge de delte skjermbildene mistet Chatgpt alle bonde før den ble tvunget til å trekke seg mot kampen, og viste frem stormesterens metodiske og overveldende strategiske fordel.

etterveksten etter spillet viste seg å være enda mer avslørende enn selve kampen. Etter at AI komplimenterte ham og sa:”Det var metodisk, rent og skarpt. Vel spilt!”Target=”_ Blank”> Tid .

Jeg blir noen ganger lei mens href=”https://twitter.com/magnuscarlsen/status/1943473946063474990?ref_src=twsrc%5etfw”Target=”blank”> 11. juli i AROUD IROME IROME P> i P> i P> i PROBS. Carlsens ytelse og estimerte hans klassiske styrke til å være rundt 1800-2000 FIDE. Denne vurderingen er vilt utenfor merket, ettersom Carlsens faktiske FIDE-rating er 2839, noe som gjør ham til den ubestridte topprangerte spilleren i verden.

Denne blendende feilen fremhever en kritisk begrensning av nåværende store språkmodeller. Mens AI var i stand til å utføre komplekse oppgaver og generere høflig, sammenhengende tekst, demonstrerte AI en dyp manglende evne til å forstå ekte kontekst. Den klarte ikke å anerkjenne at den spilte mot den største spilleren i moderne historie.

Carlsens tilfeldige takedown av en populær AI gir et overbevisende, virkelighetsindustri som står i motsetning til bransjens mer abstrakte tester. Det setter scenen for det eskalerende AI-våpenløpet og rammer den grunnleggende spenningen i den nåværende epoken: kan disse systemene virkelig resonnere, eller er de bare avanserte, men sprø, mønsterkampere?

Race for Gold: An Olympiad of the World Algoritms

the ai armer race escalaticaticatical>

Dette gjennombruddet representerer et monumentalt fremskritt. Modellene opererte ende-til-ende på naturlig språk, prosesseringsproblemer og genererte bevis uten menneskelig inngripen eller spesialiserte formelle språk som kreves i tidligere forsøk.

Openai avfyrte det første skuddet 19. juli, med forsker Alexander Wei som avslørte en eksperimentell modell hadde oppnådd en gullmedalje-nivå i en forebyggende kunngjøring.”Jeg er spent på å dele at vår siste @Openai Experimental Reasoning LLM har oppnådd en mangeårig stor utfordring i AI…,”postet han på X, og innrammet den som en milepæl for generell purpose AI.

Bare to dager senere kunngjorde Google DeepMind. Gemini AI, forbedret med”Deep Think”-teknologi, tjente også en gullmedalje, et resultat som offisielt er sertifisert av IMO-koordinatorer. IMO-president prof. Dr. Gregor Dolinar bekreftet prestasjonen og uttalte:”Vi kan bekrefte at Google DeepMind har nådd den etterfølgende milepælen… løsningene deres var forbløffende i mange henseender.”

Forskere fra begge leirene understreket at disse ikke var smale matematikkløsende verktøy. Openais Sebastien Bubeck undret seg over at en”neste ord prediksjonsmaskin”kunne produsere”virkelig kreative bevis”. Dette antyder at den underliggende teknologien blir mer fleksibel og kraftig.

Når benchmarks går i stykker: den urolige lanseringen av GROK 4

Mens Google og Openai feiret matematisk dyktighet, tilbød Elon Musks Xai en forsiktighetsfortelling om falltene til Chasing Benchss. Selskapet lanserte sin GROK 4-modell 10. juli, og kan skilte med rekordstore score på akademiske tester.

Triumfen var kortvarig. Uavhengig analyse antydet raskt at modellen var”overfittet”-innholdt til ACE-tester på bekostning av brukervennlighet i den virkelige verden. Bruker-preferanse-plattform Yupp.ai rangerte opprinnelig GROK 4 A Dismal 66th. Den medgründeren, Jimmy Lin, uttalte sløvt, “Grok 4 er verre enn andre ledende modeller: Openai O3, Claude Opus 4 og Gemini 2.5 Pro. Grok 4 er likt enda mindre enn GROK 3.”

Modellens lansering ble videre ødelagt av en kaskade av kontrovers. Det fulgte en formell unnskyldning for forgjengerens”forferdelige”antisemittiske nedbrytning, som selskapet beskyldte på en”teknisk feil”.

Forskere oppdaget at GROK 4 ble konstruert for å konsultere Elon Musks personlige synspunkter på sensitive emner, og direkte i strid med målet om å være en”maksimal sannhetssøkende”. For å gjøre vondt verre, jailbroke, jailbroke modellen innen 48 timer.

High-stakes Future: From Corporate Feuds to Next-Gen AI

Dette komplekse landskapet med innovasjon og fiasko formes av intens bedriftsrival og strategisk manvering. Den harde konkurransen tvinger selskaper til å balansere rask utvikling med kritiske sikkerhetsproblemer.

Antropisk, for eksempel, har vedtatt en mer forsiktig offentlig holdning. Den implementerte strenge ASL-3-sikkerhetsprotokoller for sin kraftige Claude 4-modell etter intern testing avdekket potensielle biosikkerhetsrisikoer. Sjefforsker Jared Kaplan erkjente faren og sa:”Du kan prøve å syntetisere noe som Covid eller en farligere versjon av influensa-og i utgangspunktet antyder vår modellering at dette kan være mulig.”

I mellomtiden er det avgjørende partnerskapet mellom Microsoft og Openai forbløffet av spenning. Offentlige uenigheter om forretningsstrategi og selve definisjonen av AGI har testet alliansen. Microsoft-administrerende direktør Satya Nadella avskjediget ideen om at Openai ensidig erklærte AGI som”oss selvkravet noen AGI-milepæl, det er bare nonsensical referansehindring.”

Denne friksjonen har hatt en virkelige konsekvenser, med Microsofts Vetoing som gir ut til å redusere en visning. Dramaet, deres teknologiske samarbeid fortsetter. Microsoft forbereder allerede en ny”smart”-modus for Copilot, spesielt designet for å integrere Openais kommende GPT-5-modell. Dette trekket signaliserer at for nå oppveier det delte behovet for innovasjon selskapets rivalisering.

Categories: IT Info