ChatGPT vs Gemini vs Copilot——医療制度の質問に最強なAIチャットボットは？

医学系の学術データベース PubMed に掲載された最新研究から、主流のAIチャットボットが医療提供体制に関する質問にどの程度正確に答えられるかを検証した研究をご紹介します。Mohsen Khosravi氏らの研究チームは、GPT-4、Gemini、Copilot、Perplexityという4つのAIチャットボットを対象に、医療制度に関する質問への回答精度を定量的に評価しました。

AIチャットボットの精度検査——何がわかったのか
結果は意外な展開——Geminiの逆転劇
日本の医療現場への含意

AIチャットボットの精度検査——何がわかったのか

研究では、検証済みの質問票を用いて各チャットボットに対して複数回のテスト（2ラウンド）を実施しました。評価項目は、感度（病気を正しく見つけ出す能力）、特異度（健康な人を正しく判定する能力）、陽性予測値、陰性予測値、全体精度の5つの指標を使用しています。これらは本来、医療診断の精度を測る際に用いられる基準で、今回はAIの回答精度を測るために応用されました。

結果は意外な展開——Geminiの逆転劇

初回テストではChatGPTとPerplexityが最高の精度（0.80）を示した一方、Geminiは0.73でした。しかし、2回目のテストでは状況が一変。Geminiが全モデルの中で最高精度（0.93）を達成し、ChatGPTとPerplexityは0.87に留まりました。特に注目すべきは、ほぼすべてのモデルが改善を示したという点です。AIが複数回の問い合わせを通じて、より正確な回答を提供するようになったわけです。

日本の医療現場への含意

この研究結果は、AIチャットボットが医療情報提供の補助ツールとしての可能性を示唆しています。ただし、モデルごとに精度が異なることから、医療従事者が患者指導や医療システム説明の際にAIを活用する場合は、複数のツールを組み合わせたり、回答の正確性をダブルチェックしたりする工夫が重要であることが明確になりました。今後、さらに詳細な検証が進むことで、医療現場でのAI活用がより安全で効果的になることが期待されます。

出典: PubMed