Model AI generatif menutup jurang dengan doktor bukan pakar ketika datang ke diagnosis perubatan, tetapi mereka tetap jauh lebih tepat daripada pakar manusia, menurut analisis besar-besaran dari Osaka Metropolitan University . Penyelidikan yang diketuai oleh Dr. Hirotaka Takita dan Profesor Madya Daiju Ueda, mengkaji semula 83 kajian secara sistematik untuk membandingkan prestasi AI terhadap doktor, mendedahkan ketepatan diagnostik AI purata 52.1%. href=”https://www.nature.com/articles/s41746-025-01543-z”target=”_ blank”> nature Pada 22 Mac, meta-analisis disaring melalui lebih daripada 18,000 kertas yang diterbitkan sejak bulan Jun. Llama3 70b, Gemini 1.5 Pro, dan Claude 3 Sonnet. Walau bagaimanapun, pakar perubatan mengekalkan kelebihan yang jelas, mengatasi model AI dengan margin 15.8% yang besar dalam ketepatan. Kerumitan
Model AI menunjukkan kejayaan berubah-ubah merentasi disiplin perubatan yang berbeza. Mereka menunjukkan kekuatan tertentu dalam dermatologi, bidang di mana pengiktirafan corak visual-satu kekayaan AI semasa-memainkan peranan yang besar. Walau bagaimanapun, para penyelidik memberi amaran bahawa dermatologi juga menuntut penalaran yang kompleks di luar pencocokan visual.
Sebaliknya, penemuan yang mencadangkan penguasaan AI dalam urologi telah dipengaruhi oleh fakta bahawa mereka berasal dari satu kajian besar, yang mengehadkan bagaimana hasilnya dapat digunakan. Secara amnya, analisis menunjukkan bahawa AI cenderung goyah apabila berurusan dengan kes-kes yang kompleks yang memerlukan menafsirkan maklumat pesakit yang terperinci, terperinci, kawasan di mana pakar sering cemerlang melalui pengalaman dan penalaran klinikal yang bernuansa. Universiti Metropolitan Osaka, dalam kenyataan 18 April 2025, memetik Dr Takita mengenai kemungkinan:”Kajian ini menunjukkan bahawa keupayaan diagnostik AI yang lebih baik. Alat tambahan, mungkin menambah keupayaan manusia dan bukannya menggantikannya, pandangan bergema dalam perbincangan yang lebih luas tentang AI dalam bidang perubatan di mana prestasi manusia-ai gabungan sering melebihi semata-mata. Isu utama yang dikenal pasti ialah kekurangan ketelusan mengenai data latihan yang digunakan untuk banyak model AI komersial. Kelegapan ini menjadikannya sukar untuk menilai potensi kecenderungan atau menentukan sama ada prestasi model dapat diselaraskan di seluruh populasi pesakit yang berlainan.
Para penyelidik menyatakan bahawa ketelusan adalah penting untuk memahami pengetahuan dan batasan model. Penilaian kualiti menggunakan alat probast yang diberi nilai 76% daripada kajian yang dimasukkan sebagai mempunyai risiko berat sebelah yang tinggi, sering berpunca daripada penilaian menggunakan dataset ujian kecil atau terperinci yang tidak mencukupi mengenai data latihan AI yang mempengaruhi penilaian pengesahan luaran. Untuk Perubatan AI
Kajian Osaka tiba sebagai usaha untuk membina AI perubatan khusus terus, yang dicontohkan oleh alat-alat seperti model patologi h-optimus-0 yang dikeluarkan pada bulan Julai 2024. Takita menegaskan keperluan berterusan untuk pengesahan melalui senario klinikal yang lebih rumit dan proses AI yang lebih jelas:”Penyelidikan lanjut, seperti penilaian dalam senario klinikal yang lebih kompleks, penilaian prestasi menggunakan rekod perubatan yang sebenar, meningkatkan ketelusan membuat keputusan AI, dan pengesahan dalam kumpulan pesakit yang pelbagai, diperlukan untuk mengesahkan CAPABITI.