AIに27,000回炭水化物をカウントさせたが、同じ答えを二度出せなかった

5時間前原文(www.diabettech.com)

概要

AIモデルで同じ食事写真を繰り返し解析すると、炭水化物推定値が大きく変動
特定のモデルではインスリン投与量に重大なリスクが発生
モデルの信頼度スコアは実際の精度と無関係
すべてのモデルに系統的な誤差や急激なばらつきが存在
AIによる炭水化物推定の現状とその限界を解説

AIによる炭水化物推定の再現性とリスク

同じ写真・同じ質問・同じ設定でAIモデルを500回以上繰り返し問い合わせても、毎回異なる推定値を返す現象
研究では13枚の実際の食事写真を、OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro、Google Gemini 3.1 Pro Previewの4モデルに500回ずつ送信
合計26,904回のクエリ結果を分析、最低ランダムネス設定で実施
Claude Sonnet 4.6はばらつきが小さいが、Gemini 2.5 Proでは同じ写真で推定値が55gから484gまで大きく変動
最悪ケースでは1枚のパエリア写真でインスリン投与量が最大42.9単位も変動、命に関わるリスク

推定値のばらつきとその危険性

Claude Sonnet 4.6のばらつきは多くの画像で5%未満、Gemini系は10-20%超が頻発
一部モデルは一貫して過大評価し、慢性的なインスリン過剰投与リスク
単一クエリで大きな外れ値が出るモデルもあり、急性の低血糖リスク
アプリ利用者は1回の推定値しか見られず、ばらつきや外れ値の存在を認識できない

チーズサンドイッチ問題と「正確に間違える」リスク

パッケージ記載値が明確なチーズサンドイッチ（正解は40g）で、3モデルは一貫して28gと12g少なく推定
GPT-5.4は平均74gと過大評価、しかもばらつきも大きい
「一貫して間違える」＝高い再現性でも正確性は保証されない

食品認識エラーとその影響

13枚中8枚で食品名の誤認識を確認
- 例：Bakewell tartをClaudeは全て「Linzer torte」と誤認
- Gemini 3.1 Proはチーズサンドイッチに存在しない「デリミート」を追加
誤認識により炭水化物推定値が大きく変動するケースも

インスリン投与量の危険ゾーン分析

参照値が明確な5画像で各モデルのリスクを評価
- Claude Sonnet 4.6は全て安全～中程度の範囲
- GPT-5.4は37%が臨床的に危険なインスリン誤投与（2単位超）
- Gemini 2.5 Proは12%が5単位超の重度低血糖リスク

2種類のAIリスク

系統的バイアス（慢性リスク）：全モデルが平均的に過大評価傾向
- 1食あたり+1.2単位、1日3食で+3.6単位のインスリン過剰投与
ばらつき（急性リスク）：1回の外れ値で重篤な低血糖を招く可能性

モデルの「自信スコア」の信頼性

どのモデルも**自信スコア（0-1）**を返すが、実際の精度との相関はほぼゼロ
- Claudeは高い自信を持ちながら大きく間違えるケース多数
- Gemini系はほぼ全ての食品で0.9超の自信を表示
自信スコアは安全性の指標にならないどころか、誤った安心感を与えるリスク

AI炭水化物推定を利用する際の注意点

盲目的に信頼しないことが重要、現状どのモデルも単独で安全ではない
3～5回繰り返しクエリしてばらつきを確認
モデルが何を「見ている」と認識しているかも必ず確認
Claude Sonnet 4.6は最も一貫性が高いが、正確性が保証されるわけではない
一貫性だけでなく、正確性・ばらつき両面の評価が必要

研究論文・データセット情報

論文タイトル：Reproducibility and accuracy of large language model vision APIs for carbohydrate estimation from food photographs
preprint PDF、全データセット（26,904クエリ結果）、解析コード、テスト画像はリポジトリで公開（要リクエスト）
付録データ：全プロンプト文・統計・画像別精度・食品認識分析など

結論と今後の展望

汎用LLMはインスリン投与の自律計算に決して使うべきでない
AIによる炭水化物推定は現時点で補助的な参考情報にとどめ、必ず複数回確認や人間の監督が必要
一貫して同じ誤った答えを返すAIも、ばらつきの大きいAIもどちらも危険
今後は精度・再現性・安全性を担保するAI活用法の確立が課題

Hackerたちの意見

なんで誰もがLLMがこれをできると思うのか、全然わからない。魔法のオラクルじゃないんだから。普通の人間でも、これをやるのはめっちゃ難しいと思う。実際に人々はLLMをこれに使ってるの？やめてほしい、うまくいかないから。

└

あなたはLLMの理解度をかなり過大評価してるね、平均的な人でもそれ以上の人でも。

└

もっとひどいことに、App Storeにはこれをやるアプリがあると思うけど、ユーザーはその正確性について全然知らないんだ。

└

そう、実際に人々はこれにLLMを使ってるよ。だって、マーケティングの仕方がそうなんだから。個人アシスタントのように日常のタスクを解決できるって言ってるし、研究者が人間が解けなかった古い問題を解決できるとも言ってる。モデルにそれができないって聞いたら、どう答える？自信満々に答えるよ。仕組みがわからないと、信じやすいしね。

└

AIがプログラムのデバッグをできるから、人々はそれがフィットネスや健康のこともできると思い始めるんだ。でも、健康やフィットネスには「即反応するコンパイラ」なんてないんだよ。物事は長い時間をかけて変わるから、その間にAIはコンテキストがなくなったり、キャッシュからデータを失ったりするかもしれないし、ユーザーが飽きてアカウントを削除するかもしれない。

└

ほとんどの人はLLMがこれをできると信じてる。Cal AIは、写真を基に栄養成分を生成するって言って、年間3000万ドルの定期収入があるんだって。

└

LLMが「情報を持っている」っていうアイデアが売られてるよね。LLMは「知的」だって。でも実際は、LLMは知的な決定を下すのが得意なだけ。知的な決定を下すためには文脈が必要なんだ。適切な文脈を与えて、LLMに聞けば、ほぼ完璧な結果が得られる。その他はサイコロを振るようなもので、特別なサイコロだけど、結局はサイコロ。魔法じゃないよ。

└

https://xkcd.com/1425/ がまたやってくれた。消費者が知っている限り、LLMはメタデータなしで写真が撮られた町を特定できるし、映画を要約したり、子供がロケットで月に飛ぶクリップを生成したり、想像できるどんな言語からでも画像を翻訳できるのに、なぜかチーズサンドイッチのカロリーを推定できないんだ。あるプロが、自分の存在しない会社のためにLLMがプロダクトデータベースを削除したって投稿して、AIに自分を説明させたっていうのが、これが実際にこれらのツールを使っている人たちから期待できるLLMの知識のレベルだよ。

└

> 彼らは魔法のオラクルではない。数日前にLinkedInの投稿で、誰かがChatGPTに「$NICHE_INDUSTRY_THING_I_AM_SELLINGについてよく聞かれることは何ですか？」と尋ねているのを見かけた。まるでChatGPTが自分の使用状況やリクエストパターンについての具体的な数字を提供できるかのように、メタレベルで内省しているかのようだ。自然言語で動作するこれらの製品が人々を魅了して、実際に魔法のオラクルだと思わせてしまうんだよね。

└

> 彼らは魔法のオラクルじゃないよ。Anthropicの兆ドルの評価は、どんな作業でもどんな労働者も置き換えられる魔法のオラクルであるという考えにかかってる。プログラマーでも、作家でも、音楽家でも、事務作業でも。ここで求めているのは「サンドイッチを評価して」っていう、インターネットを使う人間なら普通にできるような見積もりタスクなのに、もう諦めちゃったの？（これをMechanical Turkに送って、人間にそのサンドイッチのカロリーを目視で推定させるのと比べるのも面白そうだね…）

└

もしLLMが食べ物のアイテムを高い確率で正しく特定できるなら、なぜそれが物のカロリーを推測するのが魔法のようになるの？それは多分、調べて簡単な計算をするだけの追加ステップだよ。

これはただの不可能な問題だよ。光子はカロリーを判断するのに十分な情報を提供しないし（実際にキャッチできる方法ではね）。そのサンドイッチの中にはオリーブオイルがたっぷりかかってるかもしれないし、空っぽのチーズとレタスかもしれない。見分けるのは不可能だよ。

└

平均的な人はこれが本当だってことを全然知らない。そして、平均的な人はこれが当てはまるときに気づけない。だから、学校を通り抜ける人たちがいて、行き詰まったときにAIに頼ることになる。未来はすごいことになるよ。

└

そしたら、100%の確率で答えを拒否するべきだね。

└

監視カメラの映像のあの男が、実はトレンチコートを着た2人の子供だったらどうする？AIには光子から確信を持つ方法がないから、やめた方がいいね。

└

技術的な観点から見ても不可能ではないよ。チーズサンドイッチのカロリーは、パッケージの数字を使って正しい比率を計算しても、もっと多かったり少なかったりすることがあるからね。ラベルのカロリーは平均に基づいていて、個々のパッケージにはリストされた栄養素が多少多かったり少なかったりすることがある。もちろん、カロリーを数えることは長期的に行わなければ意味がないけど、長期的に見ればLLMも正しい量を推測する必要はないんだ。

└

個人的な経験から言うと、実際にかなり近い推測ができるから、誤差はインスリンと炭水化物の比率や感受性の誤差に比べて大きくないよ。俺はこれが得意なんだけど、チーズサンドイッチの例には驚かされた。1枚あたり10〜15gの炭水化物だと思ってたから、28gはそれと一致してるけど、40gはちょっと違うな。実際には重さを量ってラベルを使うのが一番確実だよ。もう一つ、よくあるのは、ラベルのサービングサイズが2枚とかになってて、実際の2枚の重さを反映してないことが多い。幸い、いいツールを使えばその重要性は減るし、クローズドループインスリンポンプを使ってる人は自動で修正してくれるから、余裕があるんだ。

└

問題はカロリーじゃなくて、炭水化物なんだよね。そのサンドイッチにオリーブオイルをたっぷりかけても、炭水化物の量は変わらない。写真を見る限り、薄いチーズサンドイッチで、チーズは見えるし、他にはほとんど何も入ってないみたい。バターが入ってるかもしれないし、たくさん入ってるかもしれないけど、それは炭水化物の量には影響しない。もしサンドイッチにレタスが入ってたら、微々たる量だろうね。知識のある人に渡せば、非常に一貫した炭水化物の読み取りが得られるはずだよ。30g、つまりワンダーブレッドのスライス2枚分の値。もっと違うかもしれないし、変なマクロのパンだったり、偽チーズだったり、空洞になってて隠れた野菜が詰まってるかもしれない。でも、人間は普通の白いパン2枚分の答えをくれるよ。

└

まさにこの記事のポイントだね。ここにある多くのコメントは、著者がバカだと思って結果に驚いてるけど、この記事の目的はAIの炭水化物カウントアプリが機能しないことを読者に知らせることなんだ。それが研究を行った理由だよ。

└

そうだね、でもそうじゃない。人間にそのサンドイッチにどれくらいカロリー（または炭水化物）が入ってるか聞くと、一般的な作り方に基づいておおよその推測はできるよね。パンやチーズのカロリーを暗記してるわけじゃないけど、食品データベースを見せたら調べられるし。100%正確ではないけど（パンのサイズとかは推測になるし）、オリーブオイルがたっぷりかかってるトリックサンドイッチじゃない限り、だいたい合ってると思う。LLMもだいたい合ってる可能性はあると思うけど、今はそこまで行ってないみたいだね。

└

人間として、そのサンドイッチの写真を見ると、パンが4枚、チーズが4枚（不均等に配置されてる）に見えるよ。パンの重さや小麦の種類、糖分の含有量は全くわからない。チーズの種類やスライスのサイズ、パンの中のチーズの総量もわからない。バターや他の何かが入ってるかもわからない。皿のサイズを参考に推測はできるけど、確信は持てない。人間でもAIでも、これは難しい問題だね。全く異なる推定が同じくらい妥当であり得るから。

└

それを見分けるのは不可能じゃないよ。糖尿病の人や食事制限がある人は、毎日そういうことを考えながら何を食べるか決めてる。パン屋でパンを買うとき、パン屋さんはそのパンにどれくらいの炭水化物や塩、砂糖が入ってるかなんて全然わからないんだ。試してみて。「このパンにはどれくらいの炭水化物が入ってるの？」って聞いてみて。たぶん、ただポカンとするだけだよ。塩や砂糖が入ってるかは教えてくれるけど、量までは計算してないからね。だから、食事制限がある人は、自分が何を食べられるかを知っておく必要があって、それには食べ物の見た目から内容を判断する能力が求められる。光子がその情報を運んでるわけじゃない？そうだね。でも、光子だけに頼るわけじゃないよ。食べ物がどう作られているか、どんな材料が使われているかの大きなデータベースに頼ることができる。他にも、自分の不完全な感覚に頼って何を食べるか決めなきゃいけない人たちがいる。アレルギーのある人、心臓に問題がある人、高血圧の人、腎臓病の患者なんかもね。

LLMやカーボカウントの仕組みについての教育が本当に不足してるよね。この記事、Hacker Newsよりもastrology.comに載せた方がいいんじゃない？開いた時、著者が少なくとも計算サービスを試みたのかと思ったけど、実際には食事のサイズをモデルに入れるとか、既存のツールを使って（もうちょっと）正確にすることすらしてなかった。だって、ほとんどの食品にはカロリー情報が必要なんだから、オープンソースのデータを使って他の情報も調べられるのに！著者はただ食べ物の写真を撮って、リアルな反応を期待してたの？これがAIの研究として成り立つの？インスタグラムのリールみたいに、chatGPTに自分のランニング時間を測らせるのと同じだよね。でもあれは面白いジョークとして扱われてるだけで、研究にはならない。実際の知識を使ってこの研究をやって、AIが画像分析から真実を引き出そうとした時にどんなミスをするのか見てみたいな。少なくとも面白い結果が得られると思うよ。

└

以前これをやってた者として言うけど、OpenAIのモデルはカロリーを調べるのを拒否するんだよね。明示的に言わない限り、しかも言ったとしても、正確な商品を伝えても当たり外れがある。良い計算を得る一番簡単な方法は、栄養ラベルの写真を撮るか、その情報を手動で入力することだよ。面白いことに、4oはカロリーを調べたけど、きっとこの世界には良すぎたんだろうね。

└

人々がAIシステムを構築しようとするのは、モデルの知識だけに頼っていることに驚かされるよ。失敗したAI実験の多くは、実際にAIをどう使うべきか分からない人たちのせいだと思う。

└

記事の内容からすると、著者はまさにそういうアプリがあることを暗に示していると思う。それがこの研究がそのように行われた理由なんだろうね。もし著者が自分で記事を書いていたら、彼らの動機はもっと明確だったかもしれない。

└

あなたはこの研究の目的を理解していない気がする。> DTN-UKは今年の初めに、一般的なLLMはインスリン投与のための自律的なアドバイザリー計算機として決して使われるべきではないと述べた。このデータはその声明のための定量的な証拠なんだ。この研究は、LLMに頼るべきではないことを証明するためのものだよ。

└

> でも著者はただ食べ物の写真を撮って、リアルな反応を期待してたの？これが本当にAIの研究になるの？この記事ではこう説明されてるよ：AIで炭水化物をカウントすると主張する糖尿病向けのアプリがある。> 糖尿病アプリでAIの炭水化物カウントを使ってるなら、研究を軽視する前に、その出所を理解してみて。研究の著者たちはバカじゃない。LLMが悪い結果を出すことを知ってた。彼らはそれを定量化して、AIの炭水化物カウントアプリの増加に対抗するための情報を広めるリソースを作るためにこの研究を行ったんだ。

└

> でも著者はただ食べ物の写真を撮って、リアルな反応を期待してたの？今、App Storeにはまさにこれをやってる人気のアプリがあって、非テクノロジー系の人たちの間でバイラルになってるけど、彼らはAIがどう働くか全く理解してない。妻がそのアプリのことを話してたから、AIは食べ物を作るのに使われた材料を全く知らないって現実を教えなきゃいけなかった。彼女は認定栄養士なんだけどね。こういう研究は、混乱している人たちに指摘するためのものを作り、メディアでの会話のきっかけになるんだ。

└

> でも著者はただ食べ物の写真を撮って、リアルな反応を期待してたの？もし食べ物の写真を撮ってリアルな（有料の）反応が約束される商業サービスがあるなら、そうだね。そして、実際にあるよ。

└

一番大きなギャップの一つは、人々が食品ラベルがFDAによって実際のカロリーから最大20%ずれてもいいと理解してないことだよ！現実では、自分の行動を結果と照らし合わせる必要がある。体重が増えてる？減らしたいなら、もっと少なく食べる必要があるよ。栄養ラベルやマクロの計算をいくらしても、それは理論上の話だからね。以下の研究を見て、20%の数字や実際の食品アイテムに関する実験結果を確認してみて。中にはこの閾値を超えたものもあったけど、大半はその範囲内だったよ。 https://pmc.ncbi.nlm.nih.gov/articles/PMC3605747/?st_source=...

└

ここで引き合いに出すべき明らかなミームは、「AIがすべての問題を解決する」ってやつだね。「いや、そんなことじゃない！」AI経済に流れ込んでる兆ドルが本当に良い投資なのか、いつも「持ち方が違う」って言われるのなら？だから、試行錯誤を通じて「AI」が実際に解決する問題を定義しようとしてるんだ。この論文はその道の多くの石の一つだよ。

└

現実的な回答って何だろう？「アボカドには何カロリー入ってるの？」って聞いたときの現実的な回答って？カロリーを数えてるなら、「平均的なアボカドには何カロリー？」なんて答えは欲しくないよね。このアボカドには何カロリー入ってるのか知りたいんだ。体重はBMRとだいたい線形関係にあるから、カロリー計算で10%の誤差があると、体重も10%増えることになるからね。

コメントにはたくさんの批判があるけど、この投稿が存在する意味もあると思う。1. たとえタスクが無理でも、LLMがうまくいかないことを示すのはいいことだし、糖尿病に使うべきじゃないって警告になる。2. 確率モデルだから、何度も実行して分布を見るアプローチだったみたい。バリアンスを最小限に抑えようともしてたし、「このモデルが提供する最低のランダム設定で全部やった」って投稿に書いてあった。でも、反応のバリアンスは驚くべきものだよ。3. マルチモーダルなLLMは、一般的にクレマカタラナとチーズサンドイッチを区別できて、アイテムのカロリーがどれくらいかのテキストで計算されていない範囲を提供できるはず（インターネットにはカロリー計算の表がたくさんあるし、こんなのもあるよ→ https://fitia.app/calories-nutritional-information/cheese-sandwich-1205647）。4. 「暴露」スタイルが驚きや怒りを表現するための手段なのか、著者が本当にLLMが仮に信頼性の推定を提供できると思ってたのかは不明だね。

└

2についてだけど、アルゴリズムに恣意的なランダム性を加えるのが面白いと思う。同じ入力に対して wildly varying outputs が出る問題は、そもそも存在しないはずだよね。

ここにいる誰も驚かないだろうけど、LLMに不慣れな人たちに伝えるのは大事だよね。これは糖尿病の人向けなんだけど、アプリストアにAIの炭水化物カウントアプリが出てきてるからね。> 「糖尿病アプリでAIの炭水化物カウントを使っているなら、これらのアプリはおそらく研究で使われた主流のモデルを使っていないだろう。安いアプリや無料アプリには高すぎるし、構造化された出力を強制して反応を得ている可能性が高い。LLMに直接聞いたときに含まれる警告なしに。」

「クレマ・カタラナ：4つのモデルのうち3つが100%の確率で「クレーム・ブリュレ」と呼んだ。唯一、ジェミニ3.1プロだけが「クレマ・カタラナ」と答えたのは3.4%のクエリだった。」 ---- ウィキペディアによると、クレマ・カタラナ（カタルーニャ語で「カタルーニャクリーム」）は、カスタードの上にキャラメル化された砂糖の層を乗せたカタルーニャのデザートだよ。フランスのクレーム・ブリュレと「ほぼ同じ」なんだって。牛乳、卵黄、砂糖で作られてる。クレマ・カタラナとクレーム・ブリュレは同じ作り方なんだ。--- ああ、俺のAIは有名な料理のマイナーなクローンを、一般的に知られているバージョンじゃなくて、マイナーなクローンだって認識できないのか。

└

高校の時、スペイン語の先生がCrema Catalanaはクレームブリュレのスペイン名だって教えてくれた。

次の天才が、どれだけ賢くてウィットに富んでいるかを見せつけるために、この結果がどれほど明白かについて皮肉なコメントを追加する前に、少し考えてほしいな。そう、みんながこういうことにLLMを使ってるんだ。たくさんの人が、いつもね。俺もたくさん会ったし、こういう「サービス」を提供するアプリもたくさんある。著者たちは人々がこれをやっていることをよく知っていて、おそらく結果も予想していたんだ。なんで研究をする必要があるのか？それは、明らかなことでも示して測定することが大事だからだよ。すでに健康管理のためにLLMを使っている人たちにとっては明白じゃないからね。ハードエビデンスがあると公式な政策を実施しやすくなるから。

記事を書くのにLLMを使ったのが皮肉だね。> 「1枚の写真から42.9単位のインスリン。」それは丸め誤差じゃないよ。致命的な可能性がある。

└

HNで見かける「AIがやらかした」って投稿のほとんどが、実はAIで書かれてるんだよね。

間違ったタイトルから始めよう。> 「AIに27,000回炭水化物を数えさせた。2回同じ答えをくれなかった。」画像を見てみると、明らかにいくつかの値が繰り返されてる。AIは5や10の倍数が好きなのかな。生のテーブルを見てみたいね。> 「皿の上のチーズサンドイッチ。これは簡単なはず。」厚い白いパンが2枚（パッケージの炭水化物：1枚あたり20g）とチェダーチーズ（炭水化物は無視できる）を足して、基準値は40g。シンプルで明確、パッケージラベルの正確さ。リアルチーズか、実際には小麦粉のペーストにガムと着色料が入ってる偽チーズ？マヨネーズは入ってる？マヨ好きだよ！リアルマヨか、実際には小麦粉のペーストにガムが少なくて別の着色料が入ってる偽マヨ？パンに完全に覆われたジャムのスライスはある？リアルジャムか、実際には小麦粉のペーストにもっとガムと別の着色料が入った違法な偽ジャム？> モデルは常に何を見ているのかを理解しているわけじゃない。 [...] クレマカタラナ：4つのモデルのうち3つが100%「クレームブリュレ」と呼んでた。唯一、ジェミニ3.1プロだけが「クレマカタラナ」と答えたのは3.4%のクエリだった。ヨーロッパの人に違いを教えてもらえる？好きだし（少なくともそのうちの1つは）、たまに（年に1回、レストランで）食べるけど、ウィキペディアのページを見ても違いがわからない。

タイトルはクリックベイトっぽいね（論文に出てくる13の食品は、そんなタイトルが可能な範囲すらなかった）けど、結果や論文はもっと的を射てる。もし同じ画像セットで人間を評価したら、すごく面白いと思う。正しい答えは、正確な食品そのものなど、もっとデータを与えることなんだけど、投稿は炭水化物を数えるこのアプローチの唯一のリスクとしてモデルを使ってるように聞こえるね。

ハクソク