人工知能のモデルは、病気の予測や予防に役立つかもしれない。しかし、最近の研究では、すべての人に有効な洞察を提供する際に直面する課題が浮き彫りになっています。
医学、AI、バイアス:悪いデータは良い技術を蝕むか?
ナタリー・サビン著
2022年5月18日 C 何百万冊もの本がある国会図書館に入り、そのすべてを読むという目標を持つことを想像してください。不可能でしょう?たとえすべての作品のすべての単語を読むことができたとしても、一生かかってもすべてを記憶したり理解したりすることはできないでしょう。
では、仮にあなたがすべての情報を読み解くことができる超強力な頭脳を持っていたとしましょう。その本には何が書かれていないのか、どんな疑問に答えられないのか、誰の体験が省かれているのかがわからないのです。
同様に、今日の研究者は、膨大な量のデータの中から選別する必要があります。世界中のピアレビューされた研究には、3400万件以上の引用があります。血液検査、病歴、家族歴、遺伝学、社会的・経済的特性などが患者の転帰にどのような影響を及ぼすかを調べるデータセットは、さらに数百万件にのぼります。
人工知能は、このようなデータをこれまで以上に活用することを可能にします。新しいモデルは、膨大な量のデータを迅速かつ正確に整理し、患者の予後を予測し、医師が治療や予防医療について判断するのを助けることができます。
高度な数学は大きな可能性を秘めている。ある種のアルゴリズムは、問題を解くための命令であり、病理医よりも正確に乳がんを診断することができる。その他のAIツールはすでに医療現場で使用されており、医師が患者の病歴をより迅速に調べたり、放射線画像の分析能力を向上させたりすることができるようになっている。
しかし、医療における人工知能の分野の専門家の中には、利点が明白に見える一方で、あまり気づかれていないバイアスがこれらの技術を弱体化させる可能性があると指摘する人もいます。実際、患者の治療において、バイアスは効果のない、あるいは有害な意思決定につながる可能性があると警告している。
新しいツール、同じバイアス?
多くの人がバイアスを個人的、民族的、あるいは人種的偏見と結びつけるが、広義には、バイアスは特定の物事を支持または反対する、ある方向に傾く傾向のことである。
統計学的な意味での偏りは、データがモデル化しようとする母集団を完全または正確に表していない場合に生じます。これは、最初から貧弱なデータしか持っていなかったり、ある集団のデータを誤って他の集団に適用してしまったりすることで起こります。
医学文献には、統計的な偏りと人種・民族的な偏りの両方が存在します。ある集団はより多く研究されているが、他の集団は十分に研究されていない。ここで疑問が生じます。既存の情報からAIモデルを構築すると、古い問題を新しい技術に転嫁しているだけではないか?
まあ、それは間違いなく懸念事項です、とタフツ医療センターの予測分析・比較効果センターのディレクターであるDavid M. Kent医学博士は言う。
Kent氏と研究チームは、心臓病を予測する104のモデルについて、新しい研究を行った。研究者たちは、以前から正確な結果を出していたモデルが、新しい患者を対象にしたときにも同じような結果を出すかどうかを知りたかったのである。
その結果
このモデルは、人々が予想するよりも悪い結果だった、とケント氏は言う。
高リスクの患者と低リスクの患者を常に見分けることができるわけではないのだ。時には、患者の疾病リスクを過大評価することも過小評価することもあった。驚くべきことに、ほとんどのモデルは、実際の臨床現場で使用された場合、害を及ぼす可能性があった。
なぜ、当初のテストと現在とでモデルの性能にこれほどの差があるのでしょうか?統計的な偏り。
予測モデルは、一般に考えられているほどには一般化しない、とケント氏は言う。
モデルをあるデータベースから別のデータベースに移したり、時間的(ある年代から別の年代へ)、空間的(ある都市から別の都市へ)に物事が変化すると、モデルはその違いを捉え損ねるのです。
その結果、統計的なバイアスが発生します。その結果、モデルはもはや新しい患者集団を表せなくなり、うまく機能しなくなる可能性があります。
だからといって、AIを医療に使うべきではないとケント氏は言います。しかし、人間の監視がなぜ重要なのかを示しています。
この研究は、これらのモデルが特に悪いということを示しているわけではない、と彼は言う。絶対的なリスクを予測しようとするモデルの一般的な脆弱性を浮き彫りにしているのです。そして、モデルの監査と更新をより適切に行う必要があることを示している。
しかし、標準化されたプロセスを支持する新しい論文の中で研究者たちが警告しているように、人間の監督にも限界があるのだ。このような枠組みがなければ、我々は自分が探そうと思ったバイアスを見つけることしかできない、と研究者たちは指摘している。繰り返すが、我々は知らないことは知らないのだ。
ブラックボックスの中のバイアス
人種は、身体的、行動的、文化的属性の混合物である。それは医療において不可欠な変数である。しかし、人種は複雑な概念であり、予測アルゴリズムに人種を使用する際に問題が発生することがある。人種間で健康状態に差がある一方で、ある集団に属するすべての人が同じ健康状態になると仮定することはできない。
ハーバード大学の文化と医学の教授であり、『Hidden in Plain Sight C Reconsidering the Use of Race Correction in Algorithms』の共著者であるDavid S. Jones, MD, PhDは、これらのツール(アナログアルゴリズム)の多くは、白人に医療資源を向けているように見えると述べています。
同じ頃、研究者のジアド・オーバーマイヤー(MD)とエリック・トポル(MD)によって、AIツールにおける同様のバイアスが指摘されていた。
患者の治療に影響を与える臨床研究に多様性がないことは、以前から懸念されていた。現在懸念されているのは、これらの研究を用いて予測モデルを構築すると、そうしたバイアスを引き継ぐだけでなく、より不明瞭で検出が困難になることだ、とJonesは言う。
AIの黎明期以前は、アナログなアルゴリズムが唯一の臨床的選択肢でした。この種の予測モデルは、自動的ではなく手作業で計算される。
アナログモデルを使用する場合、人は簡単に情報を見て、人種などの患者情報を含むか含まないかを正確に知ることができるとジョーンズは言う。
しかし、機械学習ツールでは、アルゴリズムに独自性があるため、データはユーザーから隠され、変更もできない。つまり、ブラックボックスなのです。この場合、ユーザーである医療従事者は、どのような患者情報が含まれているのか、また、その情報がAIによる推奨にどのような影響を与えるのかを知らない可能性があるため、問題となります。
もし、医療に人種を利用するのであれば、その利用が適切かどうかを理解し、理性的に判断できるように、完全に透明である必要がある、とジョーンズは言う。答えが必要なのは、次のような質問です。どのように、そしてどこで、人種表示を使えば、害を与えることなく、良い結果をもたらすことができるのか。
臨床医療におけるAIについて心配する必要があるのか?
AI研究の洪水にもかかわらず、ほとんどの臨床モデルはまだ現実のケアに採用されていません。しかし、もしあなたが医療提供者のテクノロジーや人種の使い方に懸念を抱いているのであれば、ジョーンズは積極的に行動することを提案します。プロバイダーに尋ねてみるとよいでしょう。あなたの私への接し方は、私の人種や民族に対するあなたの理解に基づいていますか?そうすることで、医療提供者がどのような判断を下すかについて、対話が始まるかもしれません。
一方、専門家の間では、医療における人工知能の統計的偏見や人種的偏見に関する問題は存在し、ツールが広く使用される前に対処する必要があるというのがコンセンサスです。
本当に危険なのは、予測モデルを作成する新しい企業に大量の資金が投入され、良い(投資収益率)プレッシャーにさらされることだ、とケント氏は言う。そうすると、準備が整っていない、あるいは十分にテストされていないモデルを普及させるという矛盾が生じ、医療の質が向上するどころか、悪化する可能性があるのです」。