ChatGPTはパーキンソン病の医学教育に有用か：信頼性と読みやすさを検証

医学論文の情報源として活用が広がる生成AI。その実力は本当のところどうなのでしょうか。今回は、パーキンソン病に関するChatGPTの回答の質と信頼性を検証した最新の研究を紹介します。Gabriele Riccio氏らの研究チームが、ChatGPT-4oがパーキンソン病の医学問題にどの程度対応できるのかを、複数の神経学の専門家による評価で明らかにしました。

医師の評価との比較で「まあまあ」の成績
「質は良いが、難しすぎる」という課題
医学教育と患者向けコンテンツの使い分けが鍵

医師の評価との比較で「まあまあ」の成績

研究では、22問の医学クイズをChatGPT-4oと2名の神経科医に出題。さらに、パーキンソン病に関する患者からのよくある質問20件に対するChatGPTの回答を、3名の神経科医が評価しました。評価には、信頼性を測る「Discernスコア」、質の良さを測る「グローバル品質スコア」、実用性を測る「有用性スコア」など、複数の指標を使用しています。結果として、神経科医とChatGPTの回答の一致度は「妥当な水準」に留まりました。

「質は良いが、難しすぎる」という課題

興味深いことに、患者向けの質問に対する回答の質そのものは良好という評価でした。しかし、読みやすさの分析で問題が浮上。Flesch Reading Easeスコアなどの指標で測定したところ、テキストが高度に教育を受けた読者向けになっており、一般の患者には難しすぎることが判明しました。つまり、内容は正確だけれど、誰もが理解できる形での説明になっていなかったのです。

医学教育と患者向けコンテンツの使い分けが鍵

研究チームは、ChatGPTは医学専門家向けの教育ツールとしては有効な補助手段になり得ると結論づけました。一方で、患者説明に活用する場合には、「特定の指示を与える」などの工夫で、読みやすさと信頼性を改善する余地があると指摘しています。日本の医療現場でも、AIツールの活用が増える中で、この研究は重要な示唆を与えてくれます。正確性と平易性のバランスをどう取るかが、医学情報を提供する者の課題として改めて浮き彫りになったのです。

出典: PubMed