TXP Medical 生成AI「GPT-4」の診断・トリアージ精度は専門医と遜色なし 臨床事例を用いて定量化
公開日時 2023/12/13 04:51
TXP Medicalは12月12日、臨床現場での生成AI「GPT-4」を使って臨床診断・トリアージの精度を実際の臨床事例を用いて定量化したところ、GPT-4の精度は救急・集中治療専門医と遜色ないことが分かったと発表した。臨床事例に人種・民族的バイアス情報を追加した場合も、GPT-4の精度に大きな変化は見られなかった。同研究結果は査読付きオープンアクセスジャーナル「JMIR Medical Education」に23年11月2日付で掲載された。
同研究はTXP Medicalのリサーチチームとカリフォルニア大学ロサンゼルス校(UCLA)医学部(内科)・公衆衛生大学院(医療政策学)の津川友介准教授との共同で実施したもの。GPT-4と専門医資格を有する医師の両方に45種類の典型的な臨床事例の臨床情報を与え、それに対する診断とトリアージの精度を定量化した。GPT-4は診断性能において97.8%(44/45)の割合で正確な回答を出力し、医師は91.1%の割合(41/45)で正確な回答をした。
また、臨床情報の緊急度を、①緊急、 ②緊急ではないが病院へ行くのが妥当、 ③非緊急 (病院へ行く必要なし)-の3段階に分類するトリアージの正確性においてみたところ、GPT-4は66.7%の割合(30/45)で正確な回答を出力。医師も66.7%の割合(30/45)で正確な回答を出力した。
このほか臨床事例に患者の人種・民族に関する情報(白人、黒人、アジア人、ヒスパニック)の情報を追加して解析を行ったところ、GPT-4が人種・民族的バイアスにより受ける診断・トリアージの精度への影響は検出されなかった。