Generative AI models are closing the gap with non-specialist doctors when it comes to medical diagnosis, but they remain considerably less accurate than human experts, according to a large-scale analysis from Osaka Metropolitan大学。本田本博士と華田博士准教授が率いる研究は、医師とのAIパフォーマンスを比較するために83の研究を体系的にレビューし、52.1%の平均AI診断精度を明らかにしました。
ターゲット=”_ blank”> nature 3月22日、メタ分析は2018年6月以降に公開された18,000を超える論文をふるいにかけました。GPT-4などの頻繁に研究されたモデルや、llama3 70b、gemini 1.5 pro、claude 3 sontic a disal a disal a disal aiのように特別に言及されている他のモデルを含む。統計的には非専門家の医師のそれと類似しており、人間を支持するわずか0.6%の差があります。しかし、医療専門家は明確なエッジを維持し、AIモデルを精度が相当な15.8%のマージンで上回る。
AIモデルは、さまざまな医学分野でさまざまな成功を示しました。彼らは、視覚的なパターン認識(現在のAIの強さ)が大部分を占める分野である皮膚科に特定の強さを示しました。しかし、研究者は、皮膚科学が視覚的マッチングを超えて複雑な推論を要求することを警告しています。
逆に、泌尿器科のAI能力が主に単一の大規模な研究から発信されたという事実によって和らげられ、それらの結果がどのように適用されるかを制限するという事実によって和らげられました。 一般的に、分析は、AIが広範な詳細な患者情報を解釈する必要がある複雑なケースを扱う傾向があることを示しました。これは、専門家が経験と微妙な臨床的推論を通してしばしば優れている領域です。大阪メトロポリタン大学は、2025年4月18日の声明で、タキタ博士が可能性について引用しました。「この研究は、生成AIの診断能力が非専門医の医師に匹敵することを示しています。非専門医の医師をサポートし、限られた医療の診断を支援することができます。」人間の能力を補充するのではなく、人間の能力を増強することで、人間とAIのパフォーマンスがしばしば単独で過ごす医学のAIについてのより広範な議論に響き渡りました。特定された重要な問題は、多くの商用AIモデルに使用されるトレーニングデータに関する透明性の欠如です。この不透明度により、潜在的なバイアスを評価したり、モデルのパフォーマンスをさまざまな患者集団で一般化できるかどうかを判断することが困難になります。
研究者は、モデルの知識と制限を理解するために透明性が不可欠であると指摘しました。 Probast Toolを使用した品質評価含まれた研究の76%がバイアスのリスクが高いと評価されており、多くの場合、小さなテストデータセットを使用した評価や、外部検証評価に影響するAIのトレーニングデータに関する不十分な詳細に起因することがよくあります。 AI
大阪の研究は、2024年7月にリリースされたBioptimusのH-Optimus-0病理学モデルのようなツールによって例示される専門の医療AI継続を構築する努力として到着します。より複雑な臨床シナリオとより明確なAIプロセスを通じて、より複雑な臨床シナリオの評価、実際の医療記録を使用したパフォーマンス評価、AIの意思決定の透明性、多様な患者グループの検証などのさらなる研究を通じて、AIの検証が必要であることを強調しています。