Modelet gjeneruese të AI po mbyllin hendekun me mjekë jo-specialistë kur bëhet fjalë për diagnozën mjekësore, por ato mbeten dukshëm më pak të sakta se ekspertët njerëzorë, sipas një analize në shkallë të madhe nga . Hulumtimi, i udhëhequr nga Dr. Hirotaka Takita dhe profesori i asociuar Daiju Ueda, shqyrtoi sistematikisht 83 studime për të krahasuar performancën e AI kundër mjekëve, duke zbuluar një saktësi mesatare të diagnostikimit të AI prej 52.1%. Target=”_ bosh”> Natyra Më 22 Mars, meta-analiza u zhvendos nëpër më shumë se 18,000 letra të botuara që nga qershori 2018. Vlerësoi një gamë të AI, duke përfshirë modele të studiuara rëndë si GPT-4, si dhe të tjerët, të cilët treguan në mënyrë specifike si Llama3 70B, Gemini Pro, dhe Claude 3 Sonnet. Ngjashëm me atë të mjekëve jo-ekspertë, me vetëm një ndryshim 0.6% që favorizojnë njerëzit. Sidoqoftë, specialistët mjekësorë mbajtën një avantazh të qartë, duke tejkaluar modelet e AI me një diferencë të konsiderueshme 15.8% në saktësi. Kompleksiteti
Modelet e AI demonstruan sukses të ndryshueshëm nëpër disiplina të ndryshme mjekësore. Ata treguan forcë të veçantë në dermatologji, një fushë ku njohja e modelit vizual-një forte e AI aktuale-luan një pjesë të madhe. Megjithatë, studiuesit paralajmërojnë se dermatologjia kërkon gjithashtu një arsyetim kompleks përtej përputhjes vizuale. Në përgjithësi, analiza tregoi se AI ka tendencë të prishet kur merret me raste komplekse që kërkojnë interpretimin e informacionit të gjerë, të detajuar të pacientëve, një zonë ku specialistët shpesh shkëlqejnë përmes përvojës dhe arsyetimit klinik të nuancuar. Universiteti Metropolitan Osaka, në një deklaratë të 18 Prillit 2025, citoi Dr. Takita për mundësitë:”Ky hulumtim tregon se aftësitë gjeneruese të AI-së diagnostikuese janë të krahasueshme me mjekët jo specialistë. Ndoshta duke shtuar aftësi njerëzore në vend se t’i plotësojë ato, një pamje i bëri jehonë diskutimeve më të gjera për AI në mjekësi, ku performanca e kombinuar njerëzore-AI shpesh tejkalon ose vetëm. Një çështje kryesore e identifikuar është mungesa e transparencës në lidhje me të dhënat e trajnimit të përdorura për shumë modele tregtare të AI. Kjo errësirë e bën të vështirë vlerësimin e paragjykimeve të mundshme ose të përcaktohet nëse performanca e një modeli mund të përgjithësohet në popullsi të ndryshme të pacientëve.
Studiuesit vunë në dukje se transparenca është thelbësore për të kuptuar njohuritë dhe kufizimet e një modeli. Vlerësimi i cilësisë duke përdorur mjetin Probast vlerësoi 76% të studimeve të përfshira si një rrezik të lartë të paragjykimit, shpesh që buron nga vlerësimet duke përdorur të dhëna të vogla provë ose detaje të pamjaftueshme në lidhje me të dhënat e trajnimit të AI që ndikojnë në vlerësimet e vlefshme të jashtme të vlefshmërisë. Për AI mjekësore
Studimi i Osaka arrin ndërsa përpjekjet për të ndërtuar AI të specializuara mjekësore, të ilustruara me mjete si Modeli i Patologjisë H-Optimus-0 të Bioptimus, i lëshuar në korrik 2024. Kërkesa e vazhdueshme për vërtetim përmes skenareve më të ndërlikuara klinike dhe proceseve më të qarta të AI:”Hulumtime të mëtejshme, siç janë vlerësimet në skenarë klinikë më komplekse, vlerësimet e performancës duke përdorur regjistrime mjekësore aktuale, duke përmirësuar transparencën e vendimmarrjes së AI dhe verifikimin në grupe të ndryshme të pacientëve, janë të nevojshme për të verifikuar aftësitë e AI.”