OpenAIのo1は、トリアージ医による50-55%に対してER患者の67%を正しく診断しました

1日前原文(www.theguardian.com)

概要

Harvardの研究でAIが救急医療現場の医師を診断精度で上回る
AIは限られた情報下でのトリアージで特に優位性を示す
治療計画の立案でもAIが医師を大きく上回る結果
ただしAIは患者の表情や状態など非テキスト情報は未評価
医師の役割は依然重要で、今後はAIと協働する新しい医療モデルが注目

救急医療現場でAIが医師を超える日

**George Clooney（ER）やNoah Wyle（The Pitt）**など、救急医師は長年人気のヒーロー像
Harvardの画期的研究で、AIが高圧的な救急現場でのトリアージ診断で医師を上回る
Science誌に発表された結果、AIは臨床推論の多くのベンチマークを超越
Bostonの病院救急部で76人の患者に対し、AIと2人の医師が同じ電子カルテ情報を元に診断
AIは67%の正確な診断率、医師は50～55%に留まる

AIの診断・治療計画能力

OpenAIのo1 reasoning modelを用いたAI、詳細情報が増えると診断精度は82%に上昇
専門医の精度（70～79%）と比較し、差は統計的有意ではないが優勢
長期治療計画（抗生剤投与計画や終末期ケア）でもAIは89%の高評価、医師は34%
AIは大規模な医師グループよりも優れた治療提案を実現

AIが苦手な領域と今後の展望

AIはテキスト情報のみで診断、患者の表情や身体的サインは未評価
AIはセカンドオピニオン的役割としての活用が現時点で現実的
Harvard Medical SchoolのArjun Manrai氏「AIが医師を完全に置き換えるわけではない」
Boston Beth Israel DeaconessのAdam Rodman医師「今後10年で、医師・患者・AIの三者連携モデルが主流に」

AIの実用化と課題

米国医師の約5人に1人がAI診断を既に活用
英国でも16%が日常的、15%が週1回以上AIを利用（Royal College of Physicians調査）
英国医師の懸念点：AIの誤診リスクと責任所在
AI医療企業への巨額投資が進む一方、エラー発生時の責任体制は未整備

AIと医師の協働の未来

University of EdinburghのEwen Harrison教授「AIは臨床現場で有用なセカンドオピニオンツールになりつつある」
University of SheffieldのWei Xing助教授「医師が無意識にAIに依存する傾向がある」
- AIが苦手な患者層や高齢者・非英語話者への課題も未解決
AIの安全性や一般利用の是非は証明されていないとの指摘
患者は依然として人間医師の判断やケアを求める傾向

Hackerたちの意見

自分と妻のためだけじゃなくて、犬の診断にもLLMを使ってるんだ。AIを使った獣医療には大きなチャンスがあると思う。特に、地域の獣医クリニックでケアや手術を行うために入札をするようなやつね。地元の獣医によって価格が10倍以上も違うことに気づいたよ。80歳の母と義母は、過剰請求する獣医に何度も騙されてて、犬が彼女たちの生活の大きな部分を占めてるから、すごくプレッシャーに弱いんだ。

こういう研究を信じるのはちょっと躊躇するな。これらのベンチマークを間違えるのは簡単だから。例えば、最近の論文ではAIがレントゲンの解釈で放射線科医に勝ったって言ってるけど、AIはレントゲンにすらアクセスできなかったんだよね。https://arxiv.org/pdf/2603.21687 （意図的におかしくされたわけじゃない「一般的な胸部レントゲン理解のための大規模視覚質問応答ベンチマーク」上での話）。実際、レントゲンを解釈する時、人間の放射線科医はちゃんとレントゲンを見てる。この記事が話してる文脈では、人間の医者はERの患者を診断するためにメモだけを見てるわけじゃないよ。必要のないタスクをやらせて、経験も訓練もないのに「AIが彼らを上回った」って言うのはどうかと思う。もしメモが変なサイドチャネルで答えを漏らしてないとしても、それは驚くべきことじゃない。だから、この研究が絶対に間違ってるとか、意図的に誤解を招くものだとは思わないけど、ここから強い結論を引き出すのは避けた方がいいと思う。

└

この特定の研究については同意するけど、医者がAIモデルよりも長期的に優れているとは思えないんだ。結局、医学は知識、経験、知性（多分「パターン認識」）のことだから、最良のAIモデル（特に医療分野に特化したもの）が大多数の人間（つまり医者）を大きく上回ると考えるのが自然だと思う。ソフトウェアエンジニアに対してそういう前提を持っているなら、この分野でも同じように考えるべきだし、現実的に見て、ここ数ヶ月で医者に会ったとき（ERにも2回行ったけど）、毎回ChatGPTを使ってたのには驚いたよ。だから、純粋に興味があるんだけど、トップの医療AIが優れた人間の医者のパフォーマンスに匹敵したり超えたりできないと信じる具体的な能力（または能力の組み合わせ）は何だと思う？責任や倫理は置いといて、純粋に客観的に考えてみよう。

└

ステロイドの幻覚、すごいね。信じるために要約を読まなきゃいけなかったよ。「最も極端なケースでは、我々のモデルは画像にアクセスできないのに、標準的な胸部X線の質問応答ベンチマークでトップのランクを達成した。」

└

こういう実験は、誰がやっているか、誰が資金提供しているかによってバイアスがかかるのは必然だよ。実験は特定の理由で資金提供されていて、望ましい方向に物語を進めるためなんだ。こういう敏感な分野では、政府が資金提供する研究が必要な理由だと思う。

└

現在のモデルが「ノー」と言うことができない、あるいはほとんどの失敗モードを認識できないことがさらに心配だよ。「このX線に潜在的な癌はありますか？」って聞くと、モデルが「おそらく」と答えるかもしれないけど、それはモデルが常にユーザーに同意して、常に答えを提供するように訓練されているからなんだ。あ、忘れないでほしいのは、「このX線に潜在的な癌はありますか？」と「このX線に潜在的な問題はありますか？」は全く異なるプロンプトで、全然違う答えが返ってくるってこと。

└

AIは文脈の解釈には役立つと思うけど、決定を下すのは無理だね。患者データのバックグラウンドで動いて、「診断にXが見えますが、Yは除外しましたか？理由はa、b、cです。」って医者にメッセージを送る感じがいいと思う。私のコーディングエージェントも同じように、見逃したことをレビュー中に教えてくれるといいな。最初のパスで生成されたものを全部見直させられるよりはね。

└

ここでの大きなポイントは、医者があなたの持っているものを50%の確率で見逃すってことだと思う。

└

こういうことがあるのは変だし、新しい研究だけど、そういうX線モデルはすでに活発に使われてるよ。ただ、唯一の最終診断として使われるわけじゃない。むしろ、ピアレビューや優先順位付けのようなもので、「この画像は今日最も重要そうだから、まずこれをチェックして」って感じだね。

└

医者は人間の認知バイアスを持ってるから、見落とすことがあるのはあり得ると思う。人は自分が一番慣れてるパターンに固執しがちだしね。

└

記事を読んでみると、医者とLLMの間のギャップは、両方がフルケースノートを読むことを許可されたら実際になくなった（統計的な有意性の点で）。見出しは看護師のメモからの推測診断に基づいた数字を引用してる。私の予想では、LLMは選ばれたケーススタディからの推測を医者よりも喜んで受け入れたんじゃないかな。

└

リンクされた論文はまだ読み終わってないけど、X線を見せないと結果が幻想的なものになるという仮定に興味がある。これは非常に合理的な結論のように思えるけど、もう一つの視点をスキップしてるね。X線は結果を less accurate にするのかな？

論文: https://www.science.org/doi/10.1126/science.adz4433 （2026年4月30日）

>「AIと2人の人間の医者が同じ標準的な電子健康記録を読むことになった」これは人間の医者の能力を制限してるよ。人間の医者は、患者を少し観察するだけでももっと多くの情報を得られるからね。

└

これはすごく重要な観察だと思う。あと、AIが使えるように短い動画や写真を含めるのも面白いかもね。

└

同意するよ。こういう技術の最良の使い方は、両者の強みを活かすことだと思う。AIに記録を確認させて、診断を提案させてから、医者が患者を観察した後にレビューするって感じ。もう一つは、一般的な問題は一般的だから、これが医者とLLMのバイアスにどれだけ影響するか気になるな。鼻水と咳で来た人をインフルエンザと診断するのは、たいてい当たると思うよ。

└

一方で、> 「臨床インタビューのように、自由に解釈できるオープンエンドのデータにアクセスできる専門家ほど危険なものは少ない。」

└

ボーナスとして、今は医療ネットワークが医者にAIの文字起こしソフトを使うように促してるんだよね。医者や看護師は、打ち込む必要がないから気に入ってるけど、記録の転写ミスが結構あるのにそれがチェックされてるかどうかは完全にグダグダ。で、その間違った転写をAI診断システムに入れたら、バン！って感じで。AIはそれを真実として扱うけど、医者は「え、何それ？」ってなるかも。

記事と論文の両方に驚いてるよ。どちらもかなり誇張されてる感じがする。これはLLMが医者と競ってるけど、LLMに有利な条件が整ってるから、臨床実践を反映してないよね。これらの推論ケースは医者のベンチマークじゃなくて、学習ツールなんだ。診断はまず患者の正確な説明に依存してるし、集める情報は鑑別診断に基づいてる。医者のスキルの一部は、いろんな情報源から情報を集めて、重要なものをフィルタリングすることなんだよね。患者がうまくコミュニケーションできなかったり、言葉を発せない場合もあるし、介護者や親族からの情報も重要だよ。病歴を取るのもスキルだし、診察も同様だよね。ここではそのデータが与えられてる。平文からのパターン認識については、特にo1のトレーニングデータに含まれている質問に関しては、医者よりも優れているのは全く驚かないけど、臨床的に有用な比較には見えないね。どの検査を行うか、画像診断をどうするか、病歴から不要な情報をフィルタリングするのもスキルで、診断を形成することとは切り離せないよ。

└

それに、間違った判断の分析を見る必要があるよ。人間の医者の目標は最高の精度を出すことじゃなくて、患者への総合的な害を減らすことだから。Xを選ぶ確率が高い場合もあるけど（でもそんなに差がないかも）、まずは他の選択肢を排除するか、いくつかの可能性をカバーする安全な治療を始めるのが賢明だよ。この評価で「高得点」を取ることが必ずしも良い医療とは限らない。

AIがそんなクリティカルな状況で役立つとは思わないな。10年後には、AIが医者の事前チェックを手伝うかもしれないけど、もしAIが何も見つけられなかったら、医者がそれを深掘りしない可能性もあるよね。この小さな疑問が、後々技術を壊す原因になると思う。AIはここではオプションであるべきだよ。たとえAIが人間が時間内にできないデータをサンプリングしたり要約したりしても、もし人間が見逃す何かをAIが見逃したらどうする？逆に、人間が見逃す何かをAIが見逃さなかったら？機械と人間、どっちを信じたい？（特に人間が責任を負う場合はね。）

この研究にはあまり重きを置かないけど、自己診断におけるLLMの有用性には多くの人が同意できると思う。アメリカでは、医者の注意とケアを得るのが難しいから、自分でやらざるを得ない現実があるんだよね。10年前は、医者がGoogleで見つけたことを持ってくる患者に文句を言ってたけど、今は代わりがないと思う。例えば、足と足首の問題で足病医に行ったんだけど、X線で足の問題は診断されたけど、足首の問題には肩をすくめて「X線には何も映ってない」って言われた。15分の診察時間が終わって、問題についての手がかりもなく帰ったんだ。LLMで5分調べたら、足の診断と一致する足首の問題のありそうな理由がわかったよ。

└

医療にLLMを使うことがアメリカの医療問題の適切な解決策だとは思わない。医療ビジネスがAIで患者ケアを改善することを決めない限り、患者数を増やすだけでは状況がさらに悪化すると思う。

ここでの否定的な反応には驚いてる。コンピュータで30%に到達できるってだけでもすごいことだよ。AIやOpenAI（あるいはGoogle）のような最前線の研究所に対する憎悪が多すぎて、意味がわからない。

└

医療業界の知り合いが、楽な仕事でカルテルに支えられた給料をもらっているのを見て、AIが仕事を奪いに来る恐怖を感じてるのを見て、正直嬉しいよ。

ERに何度も行ったことがあるけど、満員の時に患者が漏れちゃうよりは、こういうのがあった方がマシだよね。少なくともチャンスはあるし。

これ、GPT-4の時代の研究を思い出すな。LLMが法学部の試験で学生よりも良い成績を出してたやつ。もう2023年じゃないし、医療の話でもそうだよね？もしそうなら、健康関連のアプリには悪いニュースだね。LLMの低いところの果実はもう取られちゃったし。

ハクソク