Generativa AI-modeller stänger klyftan med icke-specialistiska läkare när det gäller medicinsk diagnos, men de förblir betydligt mindre exakta än mänskliga experter, enligt en storskalig analys från Naturen Den 22 mars siktades metaanalysen genom mer än 18 000 papper som publicerades sedan juni 2018. Det utvärderade ett intervall av AI, inklusive starkt studerade modeller som GPT-4 samt andra som nämns som lama3 70b, Gemini 1.5 Pro och Claude 3 Sonnet. Statistiskt sett liknar den för icke-expertläkare, med endast en skillnad på 0,6% som gynnar människorna. However, medical specialists maintained a clear edge, outperforming the AI models by a substantial 15.8% margin in accuracy.
Performance Varies by Field and Complexity
AI-modellerna visade variabel framgång över olika medicinska discipliner. De visade särskild styrka inom dermatologi, ett fält där visuellt mönsterigenkänning-en forte av nuvarande AI-spelar en stor roll. Ändå varnar forskarna att dermatologin också kräver komplexa resonemang utöver visuell matchning.
Omvänt, fynd som tyder på att AI-kunskaper i urologi härdades av det faktum att de främst härstammar från en enda stor studie, vilket begränsar hur bredt dessa resultat kan tillämpas. Generellt indikerade analysen att AI tenderar att vakla när man hanterar komplexa fall som kräver tolkning av omfattande, detaljerad patientinformation, ett område där specialister ofta utmärker sig genom erfarenhet och nyanserad klinisk resonemang. Osaka Metropolitan University, i ett uttalande den 18 april 2025, citerade Dr. Takita om möjligheterna:”Denna forskning visar att generativ AI: s diagnostiska förmågor är jämförbara med icke-specialistiska läkare. Det kan användas i medicinsk utbildning för att stödja icke-specialistiska läkare och hjälpa till i diagnostik i områden med begränsade medicinska resurser.”Förstärkande mänskliga förmågor snarare än att ersätta dem, en uppfattning ekade i bredare diskussioner om AI inom medicin där kombinerade mänskliga-AI-prestanda ofta överstiger antingen ensamma.
Persistenta hinder: Bias och transparens
The Entusiasm för AI: s potentiella är balanserade genom att inte identifieras i den identifierade utmaningen. En viktig fråga som identifieras är bristen på öppenhet när det gäller utbildningsdata som används för många kommersiella AI-modeller. Denna opacitet gör det svårt att bedöma potentiella fördomar eller avgöra om en modells prestanda kan generaliseras över olika patientpopulationer.
Forskarna noterade att transparens är avgörande för att förstå modellens kunskap och begränsningar. Kvalitetsbedömning med hjälp av probast-verktyget betygsatt 76% av de inkluderade studierna som har en hög risk för partiskhet, ofta härrörande från utvärderingar med små testdatasätt eller otillräckliga detaljer om AI: s träningsdata som påverkar externa valideringsbedömningar.
Vissa experter oroar sig också för att AI utbildade på allmänna hälsoregister kan oavsiktligt lära sig och replicera historiska historiska mänskliga diagner. Framåt för medicinsk AI
Osaka-studien anländer när ansträngningarna för att bygga specialiserad medicinsk AI-fortsättning, exemplifierad av verktyg som BioPtimus’s H-Optimus-0-patologi som släpps i juli 2024. Metaanalysen ger ett nödvändigt benchmark, utvärdering av den allmänna diagnostiska kapaciteten som dessa verktyg släpps till jämförelse. betonade det pågående kravet på validering genom mer komplicerade kliniska scenarier och tydligare AI-processer:”Ytterligare forskning, såsom utvärderingar i mer komplexa kliniska scenarier, prestandautvärderingar med hjälp av faktiska medicinska journaler, förbättrar transparensen i AI-beslutsfattande och verifiering i olika patientgrupper, behövs för att verifiera AI: s kapaciteter.”