I modelli AI generativi stanno colmando il divario con i medici non specialistici quando si tratta di diagnosi medica, ma rimangono considerevolmente meno accurati degli esperti umani, secondo un’analisi su larga scala da . La ricerca, condotta dal Dr. Hirotaka Takita e dal professore associato Daiju Ueda, ha sistematicamente esaminato 83 studi per confrontare le prestazioni di intelligenza artificiale contro i medici, rivelando un’accuratezza diagnostica media dell’intelligenza artificiale del 52,1%.
Pubblicato in natura Il 22 marzo, la meta-analisi ha segnato attraverso oltre 18.000 articoli pubblicati da giugno 2018. Ha valutato una gamma di intelligenza artificiale, compresi i modelli fortemente studiati come GPT-4 e altri che sono stati comparati in modo specifico per le performance di Llama3, Gemini 1.5 Pro e Claude. a quello dei medici non esperti, con solo una differenza dello 0,6% a favore degli umani. However, medical specialists maintained a clear edge, outperforming the AI models by a substantial 15.8% margin in accuracy.
Performance Varies by Field and Complessità
I modelli AI hanno dimostrato un successo variabile tra diverse discipline mediche. Hanno mostrato particolare forza in dermatologia, un campo in cui il riconoscimento del modello visivo-un forte di AI attuale-gioca un ruolo importante. Tuttavia, i ricercatori avvertono che la dermatologia richiede anche un ragionamento complesso oltre la corrispondenza visiva.
Al contrario, i risultati che suggeriscono che la competenza di intelligenza artificiale in urologia sono stati mitigati dal fatto che hanno avuto origine principalmente da un singolo grande studio, limitando quanto ampiamente possono essere applicati tali risultati. Generalmente, l’analisi ha indicato che l’intelligenza artificiale tende a vacillare quando si tratta di casi complessi che richiedono l’interpretazione di informazioni sui pazienti estesi e dettagliati, un’area in cui gli specialisti spesso eccellono attraverso l’esperienza e il ragionamento clinico sfumato.
AI come assistente, non sostituzione
Nonostante il deficit di accuratezza rispetto agli specialisti, lo studio eventi potenziali a livello di salute. L’Università metropolitana di Osaka, in una dichiarazione del 18 aprile 2025, ha citato il Dr. Takita sulle possibilità:”Questa ricerca mostra che le capacità diagnostiche di AI generative sono paragonabili a medici non specialisti. Questo potrebbe essere utilizzato nell’educazione medica per sostenere i dottori non specialisti come un dottore in contatto per i fornitori non specialistici come un avvio per i fornitori non specializzati come un integrità non specializzato in contanti.”Lo strumento, forse aumentando le capacità umane piuttosto che sostenerle, una visione ha fatto eco in discussioni più ampie sull’intelligenza artificiale in medicina in cui le prestazioni combinate umane-AI spesso superano da sole. Un problema chiave identificato è la mancanza di trasparenza per quanto riguarda i dati di formazione utilizzati per molti modelli di AI commerciali. Questa opacità rende difficile valutare potenziali pregiudizi o determinare se le prestazioni di un modello possono essere generalizzate tra diverse popolazioni di pazienti.
I ricercatori hanno notato che la trasparenza è essenziale per comprendere le conoscenze e le limitazioni di un modello. Valutazione della qualità utilizzando lo strumento Probast ha valutato il 76% degli studi inclusi con un alto rischio di distorsioni, spesso derivanti dalle valutazioni utilizzando set di dati di piccoli test o dettagli insufficienti sui dati di addestramento dell’intelligenza artificiale che colpiscono valutazioni di validazione esterne. Per AI medica
lo studio di Osaka arriva mentre gli sforzi per costruire AI medica specializzati continuano, esemplificati da strumenti come il modello di patologia H-Optimus-0 di Bioptimus, questi strumenti sono stati rilasciati nel luglio. ha sottolineato il requisito in corso per la validazione attraverso scenari clinici più intricati e processi di intelligenza artificiale più chiari:”Sono necessarie ulteriori ricerche, come le valutazioni in scenari clinici più complessi, le valutazioni delle prestazioni che utilizzano cartelle cliniche effettive, migliorando la trasparenza del processo decisionale dell’IA e la verifica in diversi gruppi di pazienti, sono necessarie per verificare le capacità dell’IA.”