ハクソク

世界を動かす技術を、日本語で。

Google、調査で危険な欠陥が発見されたためAI健康サマリーを削除

概要

GoogleのAI Overviewsは、上位表示されたウェブサイトの情報を要約する設計に起因する誤りが多発。
SEO目的の低品質コンテンツやスパムが原因で、信頼性に欠ける情報がAIに渡る。
AIは権威的な口調で誤情報をまとめ、利用者を誤解させる危険性。
正しい情報源からでも、AIの言語モデルが誤った結論を導く場合がある。
Googleは品質管理を強調するが、問題は依然として残存

AI Overviewsの設計上の問題点

  • GoogleはAI Overviewsを、ページランク上位のウェブ情報を根拠に要約する仕様で開発
  • 上位表示の前提に「信頼性の高いページが上位に来る」という仮定
  • ページランクアルゴリズムは、長年SEO対策やスパムコンテンツに悩まされている現状
  • 信頼性の低い情報もAIモデルに入力され、権威的な要約として出力
  • 利用者が誤った情報を信じやすくなるリスク

AI Overviewsの信頼性と限界

  • 正確な情報源からでも、AIの言語モデルがデータを誤解釈し、不正確な要約を生成
  • AI Overviewsは本質的に事実の正確性を保証しない設計
  • Googleのアルゴリズムが高評価したウェブサイトの誤りや不正確さもそのまま反映
  • 権威的な表現で事実を述べるため、誤りも信頼できるように見える

問題が継続する事例

  • The Guardianによると、検索クエリを少し変えただけでもAI Overviewsが表示される現象
    • 例:「lft reference range」「lft test reference range」など
  • AI Overviews内で太字で検査値リストが示され、読者が誤った数値に気付きにくい懸念
  • Googleは「信頼できる情報源へリンクし、必要時は専門家への相談を促している」と説明
  • AI Overviewsは自信の高いクエリのみ表示と主張し、常時品質評価・見直しを実施

過去のAI Overviewsに関する論争

  • AI Overviewsは以前にもピザに接着剤を塗る石を食べるなどの誤った助言を表示
  • 利用者の間で不評となり、検索クエリに罵倒語を入れるとAI Overviewsが無効化される裏技が拡散
  • 信頼性や安全性への懸念が継続

Hackerたちの意見

「危険で驚くべき」って感じだね。医療は変革が必要だけど、他の分野とは違って、リスクは命に関わるからね。医療は人間が関与するアプリケーションに焦点を当てて、人間の生産性を大幅に向上させることが重要だと思う。置き換える前にね。
医療は「変革が必要」ってどうして?
Arsが元の報道をパクったけど、「some」をタイトルから抜いたせいで、さらに悪化してる。「危険で驚くべき」:Googleがユーザーの健康が危険にさらされた後、一部のAI要約を削除した。
「some」を削除しても悪化しないよ。「all」AIタイトルを含めてないからね。「Googleが危険な欠陥を発見した後、AI健康要約を削除」ってのは、「Googleがユーザーの健康が危険にさらされた後、一部のAI要約を削除」っていうのと実質的に同じだし。あ、あと、Arsの記事自体には「Some」って単語がまだ含まれてるよ(私のABテストで)。HNの見出しがそれを抜いてるだけだから、君の文句は全く無効だね:「Googleが危険な欠陥を発見した後、一部のAI健康要約を削除」
良かった。自分が服用している薬を検索したら、Googleの「AI」要約はほぼ犯罪的だった。WebMDのサイトには正しい情報が載ってたし、製造元のウェブサイトも同様だった。Googleは色々なことを妄想してて、その時点で、健康や医療情報に関してLLMが適当なことをするのはやめさせるべきだと感じた。
s/hallucinated/fabricated/にしてくれ。
これはどんな薬?いつも良い情報をくれるんだけど。
驚かないよ。もう一つの例はマインクラフト関連の検索だね。特定のウィキページに行くつもりで検索してたけど、要約を読むだけになっちゃった。ファンフォーラムで話し合われている機能やアイデアと、実際のゲームのバイブルであるminecraft.wikiを混ぜてしまうから、真実の情報源とファンタジーの情報源が混ざって、めちゃくちゃ不正確な要約が出てくる。
ゲームに関しては難しいよね、特にMinecraftみたいに頻繁にアップデートされるやつは。OSRSでも似たような問題があった。古い情報や、関係ないリーグ/イベントの情報が入ってくるんだよね。結局、すごく整理されたウィキを見に行く方が楽。
私は、必要なアイテムを2つのサプライヤーのうちの1つから購入する小さなビジネスを運営してるんだけど、そのサプライヤーのウェブサイトの検索機能がクソなんだ。Googleで調べる方が早い。AIの要約があるおかげで、結果の半ページをスクロールして、トルコの石油会社に関するナンセンスを見なきゃいけないのが本当に嫌だ。ちょっとした不便なんだけど、すごくイライラする。まるで痛い歯みたい。
私にとって面白いのは、こういう行動――信頼性や信用性が大きく異なる広範な議論をちょっと混ぜ合わせること――が、AI研究の一番の魅力の一つだと思うんだよね。私は元の情報源を読むのは得意だけど、何があるかを直感で感じるのが難しいことが多い。あいまいなアイデア(「誰かがこれをやったに違いない」みたいな)を間違った専門用語や不明瞭な説明で検索することがあるんだけど、AIがそれをうまく理解して、私が考えたアイデアについて話している人たちを指し示してくれる。時には変な人たちで、アイデアが間違っていることもあるけど、検索結果からプレイヤーや使われている専門用語、関連する論争などがわかるんだ。それを元に進められるけど、AIがなければ「これが存在するはず」と「すでにこれを正しくやった人がいる」までの道のりは実際に長いんだよね。
それとも、Microsoftの「Merl」サポートエージェントがMinecraftに関することは何でも知ってるって言って、基本的にどんなゲームプレイの質問にも「それはわからない」って返すアプローチを取ることもできるよ。
今日、似たようなことがあったんだ。友達がシリーズの本を読み終えたんだけど、私はそのシリーズを読んだのがほぼ10年前で、ネタバレを見ながら復習が必要だったから探してみたんだ。そしたら、あるredditのユーザーがシリーズのかなり後の本との比較を投稿してて、私が探してたかなり初期の本との間にいろんな類似点や伏線、参照を引き合いに出してたんだ。それが面白い投稿だったから、すごく人気があった。AIの要約はそのredditの投稿のせいで2冊の本を完全に混同しちゃって、私が受け取った要約は、結末近くまで出てこないプロットポイントやキャラクターでめちゃくちゃになってた。どっちの本がどっちか全然わからなかったんだ。アナキン・スカイウォーカーがカイロ・レンとライトセーバーの決闘をするみたいな馬鹿げたことではなかったけど、同じような混乱はあったよ。幸い、最近後の本を読み終えたばかりだったから覚えてたけど、まるで熱にうなされた夢を読んでるみたいだった。
数ヶ月前、HNのコメントで古い法律がああいう風に書かれた理由について考えてみたんだ。もしその法律が含まれている一見恣意的な制限なしに書かれていたら、そのスレッドで話されていた新しい法律は必要なかったはずだよ。数時間後、LLMに聞いてみたら、私がHNのコメントで推測したのと同じ理由をすぐに答えてくれたんだ。それから、引用された2つのリンクをクリックしたら、一つは全く関係ないもので、もう一つは私のHNのコメントへのリンクだった。
うん、最近Kubernetesのリソースでそんなことがあったよ。何かをする方法を探してたら、Google AIがちょうど私が必要としていたKubernetesのリソースを見せてくれたんだ。まさに私が求めていた通りに設計されてた。でも、残念ながらそのリソースは実際には存在しなかったんだ。もしあったら完璧だったのに!
よくある問題だよね。昔、ポーランドに住んでいるクルド人の数を聞かれたとき、GoogleのAIは何百万もいるって言ってたんだけど、それはある特定のLARPグループが作ったファンタジーの世界の中だけの話だったんだ。
EU5についての質問で、同じような問題があったけど、EU4とEU5のメカニクスが混ざっちゃって、答えがめちゃくちゃになったよ。
アプリが健康データに基づいて診断や推奨を行う場合、それは医療機器としてのソフトウェア(SaMD)になって、責任の世界が広がるよ。
ジェミニにどう対処するのがいいと思う?何かが心配かどうかを理解するのにすごく役立つよね。好きか嫌いかに関わらず、議論の主要な参加者だし。
… その一方で、OpenAIが「健康とウェルネスのために設計されたChatGPTの専用体験」として、ChatGPT Healthサービスを立ち上げたね。フロンティアラボのAI安全性に対するアプローチの違いを見るのは面白い。
なんでそんなに違うの?どちらも関連情報を探してLLMに流し込んでるんじゃないの?
> Googleは「さまざまな情報のカテゴリーにわたって、要約の質を常に測定し、見直している」と付け加えた。これが、何かが良いかどうかについてはほとんど何も言っていないのに気づいた?
健康の要約についてはわからないけど、Pixelフォンの天気の要約はイマイチだね。例えば、数日間-3℃で、今日は+5℃になるのに、「AI天気予報」では寒い日になるとか言ってる。これが役立つ情報を提供したのを見たことがないよ。
正気の人なら、Googleが何かをレビューしてるなんて信じないよ、少なくとも人間が関わってるとは思わない。多分、別のAIが回答をレビューしてて、人間が関わるのはそのAIを再起動する時だけだと思う。
ここまで来たってことは、AIの黙示録が可能性としてあるなら、常識では救えないっていう証拠だね。
この止まらない、無制限の宣伝が「AI」が本来持っている良い名前を奪ってるんだよね。でも、無限の成長か何もないかが今のゲームのルールだよ。まぁ、調査してる人たちのおかげで、完全にそうとは言えないけど。
脱線するけど、知ってる人たちが23andMeから自分のゲノムをダウンロードして、Antigravity経由でジェミニに分析を頼んでるんだ。「50歳までに心臓病で死ななければ、100歳まで生きる可能性が高いよ。」って言ってるけど、どれくらい正確なんだろう。
遺伝学に関する私たちの知識と同じくらい正確だよ。それは、遺伝性疾患に関連する病的遺伝子の特定されたセット以外ではあまり正確じゃない。あなたのゲノムは非常に複雑で、すべての遺伝子がどのように相互作用し、環境にどう影響されるかのモデルはまだないんだ。遺伝学者たちはそれに取り組んでいるけど、まだ実現していない。あと、23andMeやAncestry、ほとんどのサービスは、あなたのゲノムの約1%しか配列を解析してないことを覚えておいてね。
あなた自身のことを聞いてるの?一般的には、50歳まで生きた人が100歳まで生きる可能性が高いってのは正確じゃないよ。聞いた話だと、80歳まで生きると90歳まで生きる確率は50%らしい。90歳まで行くと、95歳まで生きる確率も50%。95歳から97.5歳までまた50%の確率だって。これは先進国の一般的な話で、個人のことじゃないけどね。