AIに27,000回炭水化物をカウントさせたが、同じ答えを二度出せなかった
概要
- AIモデルで同じ食事写真を繰り返し解析すると、炭水化物推定値が大きく変動
- 特定のモデルではインスリン投与量に重大なリスクが発生
- モデルの信頼度スコアは実際の精度と無関係
- すべてのモデルに系統的な誤差や急激なばらつきが存在
- AIによる炭水化物推定の現状とその限界を解説
AIによる炭水化物推定の再現性とリスク
- 同じ写真・同じ質問・同じ設定でAIモデルを500回以上繰り返し問い合わせても、毎回異なる推定値を返す現象
- 研究では13枚の実際の食事写真を、OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro、Google Gemini 3.1 Pro Previewの4モデルに500回ずつ送信
- 合計26,904回のクエリ結果を分析、最低ランダムネス設定で実施
- Claude Sonnet 4.6はばらつきが小さいが、Gemini 2.5 Proでは同じ写真で推定値が55gから484gまで大きく変動
- 最悪ケースでは1枚のパエリア写真でインスリン投与量が最大42.9単位も変動、命に関わるリスク
推定値のばらつきとその危険性
- Claude Sonnet 4.6のばらつきは多くの画像で5%未満、Gemini系は10-20%超が頻発
- 一部モデルは一貫して過大評価し、慢性的なインスリン過剰投与リスク
- 単一クエリで大きな外れ値が出るモデルもあり、急性の低血糖リスク
- アプリ利用者は1回の推定値しか見られず、ばらつきや外れ値の存在を認識できない
チーズサンドイッチ問題と「正確に間違える」リスク
- パッケージ記載値が明確なチーズサンドイッチ(正解は40g)で、3モデルは一貫して28gと12g少なく推定
- GPT-5.4は平均74gと過大評価、しかもばらつきも大きい
- 「一貫して間違える」=高い再現性でも正確性は保証されない
食品認識エラーとその影響
- 13枚中8枚で食品名の誤認識を確認
- 例:Bakewell tartをClaudeは全て「Linzer torte」と誤認
- Gemini 3.1 Proはチーズサンドイッチに存在しない「デリミート」を追加
- 誤認識により炭水化物推定値が大きく変動するケースも
インスリン投与量の危険ゾーン分析
- 参照値が明確な5画像で各モデルのリスクを評価
- Claude Sonnet 4.6は全て安全~中程度の範囲
- GPT-5.4は37%が臨床的に危険なインスリン誤投与(2単位超)
- Gemini 2.5 Proは12%が5単位超の重度低血糖リスク
2種類のAIリスク
- 系統的バイアス(慢性リスク):全モデルが平均的に過大評価傾向
- 1食あたり+1.2単位、1日3食で+3.6単位のインスリン過剰投与
- ばらつき(急性リスク):1回の外れ値で重篤な低血糖を招く可能性
モデルの「自信スコア」の信頼性
- どのモデルも**自信スコア(0-1)**を返すが、実際の精度との相関はほぼゼロ
- Claudeは高い自信を持ちながら大きく間違えるケース多数
- Gemini系はほぼ全ての食品で0.9超の自信を表示
- 自信スコアは安全性の指標にならないどころか、誤った安心感を与えるリスク
AI炭水化物推定を利用する際の注意点
- 盲目的に信頼しないことが重要、現状どのモデルも単独で安全ではない
- 3~5回繰り返しクエリしてばらつきを確認
- モデルが何を「見ている」と認識しているかも必ず確認
- Claude Sonnet 4.6は最も一貫性が高いが、正確性が保証されるわけではない
- 一貫性だけでなく、正確性・ばらつき両面の評価が必要
研究論文・データセット情報
- 論文タイトル:Reproducibility and accuracy of large language model vision APIs for carbohydrate estimation from food photographs
- preprint PDF、全データセット(26,904クエリ結果)、解析コード、テスト画像はリポジトリで公開(要リクエスト)
- 付録データ:全プロンプト文・統計・画像別精度・食品認識分析など
結論と今後の展望
- 汎用LLMはインスリン投与の自律計算に決して使うべきでない
- AIによる炭水化物推定は現時点で補助的な参考情報にとどめ、必ず複数回確認や人間の監督が必要
- 一貫して同じ誤った答えを返すAIも、ばらつきの大きいAIもどちらも危険
- 今後は精度・再現性・安全性を担保するAI活用法の確立が課題