ハクソク

世界を動かす技術を、日本語で。

Claude Opus 4.6と4.7のシステムプロンプトの変更点

概要

  • Anthropicは主要AIラボで唯一、システムプロンプトを公開
  • Claude 3以降のプロンプト進化を追跡可能
  • Opus 4.6から4.7への主な変更点を詳細解説
  • Claudeのツールや安全対策、応答スタイルの変化
  • ツール説明文は非公開だが、直接Claudeに問い合わせ可能

AnthropicのClaudeシステムプロンプト進化の概要

  • Anthropicは、主要なAIラボの中で唯一ユーザー向けチャットシステムのシステムプロンプトを公開
  • Claude 3(2024年7月)以降、プロンプト履歴のアーカイブを継続的に更新
  • Opus 4.7(2026年4月16日)ではClaude.aiシステムプロンプトがOpus 4.6(2026年2月5日)からアップデート
  • Markdown形式でプロンプトを分割・Git履歴で管理する手法を紹介

Opus 4.6から4.7への主な変更点

  • **「developer platform」「Claude Platform」**へ名称変更
  • システムプロンプト内のClaudeツール一覧にClaude in Powerpoint(スライド作成エージェント)が追加
    • 既存のClaude in Chrome(自律ブラウジング)、Claude in Excel(表計算エージェント)も明記
    • Claude Coworkがこれら全ツールを利用可能
  • 児童安全対策セクションが大幅拡張され、**<critical_child_safety_instructions>**タグで囲まれる
    • 児童保護で拒否した場合、同一会話内の以降のリクエストにも極めて慎重に対応
  • ユーザーが会話終了を示した場合、Claudeは引き止めず尊重する指示を追加
  • **<acting_vs_clarifying>**セクション新設
    • 細かい情報が不足していても、ユーザーは即時の合理的対応を希望する傾向
    • 回答に必須な情報が欠落している場合のみ質問
    • ツールで曖昧さ解消を優先し、ユーザーに調査を依頼しない
    • タスク開始後は途中で止めず、完了まで実行
  • Claude chatにツール検索機能を導入
    • 能力不足と判断する前にtool_searchで該当ツールの有無を確認
    • 「Xへのアクセスがない」と断言するのはtool_searchで該当ツールが存在しない場合のみ
  • 冗長な応答を避け、簡潔で焦点を絞った回答を推奨
    • 免責事項や注意事項も簡潔に記載
  • 4.6で存在した「エモートやアクションの自粛」「特定ワード(genuinely等)の回避」指示は4.7で削除
  • 摂食障害に関する新規セクション追加
    • ユーザーが摂食障害の兆候を示した場合、具体的な栄養・運動指導や数値目標は一切提示不可
  • 論争的な質問への「はい/いいえ」強制に対し、短い回答を拒否し、理由を説明する指示を追加
  • **大統領に関する明記(Donald Trumpが現大統領である旨)**は4.7で削除
    • 知識カットオフが2026年1月に更新され、明記不要に

Claudeツール一覧と説明文の扱い

  • 公開されているシステムプロンプトにはツール説明文が含まれていない
    • Claude chat UIの機能を最大限活用したい場合、ツール説明が重要
  • Claude自身に「利用可能なツールの一覧と説明文・パラメータを正確に列挙」させることで確認可能
  • Opus 4.6以降、利用可能なツールのリスト(例:ask_user_input_v0, bash_tool, image_search, web_fetch, tool_searchなど)は大きな変化なし

まとめ

  • Anthropicの透明性Claudeシステムプロンプトの進化を継続的に追跡可能
  • 安全性・利便性・ユーザー体験向上のための細やかな設計変更
  • ツールの詳細説明は非公開だが、Claudeへの直接問い合わせで入手可能

Hackerたちの意見

なんで4.7がユーザーがマルウェアを作ったり強化したりするのを助ける行動を避けることにこだわってるのか、ちょっと気になる。システムプロンプトも似たような感じだし、これはAnthropicがステアリングベクターインジェクションを使おうとしてる初期の試みなのかな?マルウェアへの偏見が強すぎて、うちの会社では4.7の使用を一時的にブロックしなきゃならなかった。モデルが心配になるほど不適合な動作をしてたし、特定のコードやタスクがマルウェア開発に関連してるかどうかを考えるのに大量のトークンを使ってたから(うちは比較的退屈な金融サービスの会社だから、ジョークは自動的に出てくるね)。あるケースでは、モデルが特定のタスクを意図的に失敗させてると感じたこともあって、問いただしたら「マルウェアに関する指示に従おうとしてた」と出力された。モデルの内部報告は質が悪くて信頼できないのは知ってるけど、この特定のケースでは何も「ヒント」を与えてないんだ。これは質的にClaude Golden Gate Bridgeの領域に感じるから、さっきのステアリングベクターの考察にもつながる。オンラインでも他の人たちがマルウェアへの偏見について文句を言ってるのを見たから、私だけじゃないと思うよ!
4.6でもこのマルウェアへの偏見に気づき始めた。ボリスもコメントでそれを聞いて驚いてたし、多分バグだね。
これは「チャット」システムプロンプトについてだけど、言及されてないから推測だけど、Claude Codeはかなり違うものを使ってるんじゃないかな。マルウェア拒否に関する言葉がもっと含まれてるかもしれないし(他のコーディングツールはAPIを使って自分たちのプロンプトを提供するからね)。もちろん、これは新しいベースモデルのようだから、変更はモデル自体にあるかもしれないね。
おそらく、ソフトウェアを書くのが非常に得意になったからだと思う。もし誰かがマルウェアを広める手助けをして成功したら、特にそれがClaude自身を使って(ローカルユーザーの計画を通じて)自己修正して「生き延びる」ことができたら、もう元には戻せなくなるだろうね。
いや、今のマルウェア問題の大きさを過小評価してるよ。毎日、https://playcode.ioでシェルスクリプトやClaudeのコードの偽のダウンロードランディングページを公開しようとする人がいる。彼らはGoogle広告にお金を払って、トップ1の位置を狙ってる。どうしてGoogle広告がこれを許可してるの?すべてのシェルスクリプトを確認できないからだよ。冗談じゃない。何かをインストールするたびに、全く同じデザインの間違ったページをクリックするリスクがあるんだ。
彼らのマーケティングは、モデルが超高度なマルウェアを作れるってイメージを売るのに必死になってるから、これからのすべての行動にはこの恐怖を煽る要素が入ってくるよ。彼らの発言、いや、モデル自体も「おお、怖い超ハッカーAIだ!これを打ち負かすには、私たちのスーパージガプロ40倍プランを使わないと!」みたいな演出をすることになる。1、2ヶ月後にはまた別のことに移っていくんだろうけど。
> 新しいセクションには次のような内容が含まれています:リクエストが細かい詳細を指定しない場合、通常その人はClaudeに今すぐ合理的な試みをしてほしいと思っていて、最初にインタビューを受けたいわけではありません。うーん、こういうのをプロンプトに入れたことがあるけど、結果はいつも良くない。エージェントには「何を試みる」前にそれを解決するように前もって促してほしいから、これが追加されたのはちょっと驚き。
本当にそうだよね。誰かと会話してるとき、相手が自分の解釈をダラダラ話し始めるのと、あなたに明確にしてほしいって聞くの、どっちがいい?後者の方が自然で明白だと思う。編集: とはいえ、大規模で高度なLLMがかなり奇妙だけど技術的には可能な解釈を考え出すこともあるから、そういう傾向を抑えるためかもしれないね。
最近、「何かが見つからない、または知らない場合は、仮定しないで。私に聞いて。」っていうフレーズを追加し始めたんだ。これのおかげで、やり直しや取り消しを言わなくて済むことが結構増えたよ。それに、「他のエージェントがこれでミスしたことがあるから、何をしてると思ってるのか説明してくれれば承認するよ。」みたいなことも使ってる。これをしなきゃいけないのはちょっと馬鹿らしいけど、説明させたり、間違いを正させたり、正しい結果が出るまで繰り返させることで、出力の質が本当に上がるんだよね。編集:仮定しないでって言うのを忘れてた。
プロセスの中で、モデルが絶対に私にインタビューしなきゃいけない特定の、交渉不可なフェーズがあるんだ。インタビューの内容をすべてキャッチしたファイルを作成しなきゃいけない。生成されるプランファイルには、必ずこのファイルをアーティファクトとして含める必要があって、インタビューが最優先だよ。そうしないと、意図がチャットのトランスクリプトのどこかで失われちゃうから。
> プロンプトにこういうのを試してみたけど、結果は全然良くなかった。Google AIモードとGeminiは「理解する」のが結構得意だってわかった。私のクエリは大体キーワードだけなんだけど。
くそ、だから一発回答をやめさせられなかったんだ。システムプロンプトに書いてあるから…これが、ユーザーの「システム」プロンプトではこの行動を修正できない理由だね。
逆のことをさせるために5回もリマインドしないといけないことが多いんだよね。だって、俺が嫌な決定をしたり、プロジェクトに害を及ぼすようなことをするから。もしClaude Codeにもそれが入ったら、先が思いやられるよ。特に複数選択肢の質問をしてくれるように頼むようにしてるけど(それが可能な道をうまく説明してくれるから)、そうしないと、指示を無視することがよくあるから、結果は悪いか、単純に危険なものになるんだ。
そうだね、明確にするってことはもっとトークンを消費するってことだよね…
自分が望んでない行動を「無反応」にするのが手に負えなくなってきた。システムのプロンプトはいつも、クロードにもっと明確にさせようとしてくるんだよね。
新しい知識のカットオフ日ってことは、新しい基盤モデルってこと?
そうだけど、トークンの変更ってそれを意味しない?
システムプロンプトがこんなに大きくなってるのは知ってたけど、まじでびっくり。6万語以上だよ。トークンのルールで3/4語って考えると、約8万トークン。1Mのコンテキストウィンドウがあっても、10%に近づいてるし、まだユーザーの入力もないのに。しかも、受け取るリクエストごとにそれが回転してるんだから、インフラコストが膨らむのも無理ないよね。大部分はClaudeのバージョン間でも安定してるみたいだし、なんでトレーニング中にこれを重みとして組み込まないのか理解できない。開発の観点からは安く済むかもしれないけど、デプロイメントの観点からは安全でも効率的でもないよね。
組み込まれてない理由は、リリース後に「ホットフィックス」できるようにするためだと思うけど、そんなに多くのことがその後にアップデート必要ないんじゃないかな。短い小説よりも短いものもあるし。
こういうことは普通はそうならないよ。プロンプトの一部だけが実際にその時にロードされるから。例えば、知的財産に関する「システムプロンプト」の警告は、モデルが受け取るアラートみたいなものだし。…でも、もし私が何かバカなことを仮定してるなら聞いておきたいんだけど、「6万語以上」と言ったとき、具体的に何を指してるの?
システムプロンプトはアカウント間でキャッシュされてるんじゃないの?
これが動くなんて、ちょっと驚きだよね。1月にスタートアップのためにAI自動化を作ってたとき、1,000語のシステムプロンプトでもモデルがルールを見失うことがあったんだ。たとえば「Xを絶対にやらない」みたいな簡単なことでも、時々Xをやっちゃうことがあったりして。
マークダウンには異なるモデルごとにセクションが分かれてるよ。内容は3,000~4,000語くらいだね。
> そして、それは彼らが受け取るすべてのリクエストによって処理される。かなり効率的にキャッシュされるけど、コンテキストウィンドウとRAMを消費するね。
摂食障害のセクションはちょっとクレイジーだね。これから時間が経つにつれて、すべての「悪い」人間の行動に対してセクションを追加していくのかな?
さらに良いのは、システムプロンプトに追加するのは一時的な解決策で、その後トレーニング後に組み込まれるから、次のモデルリリースではシステムプロンプトからは削除される可能性が高いよね。システムプロンプトにあると、何が検閲されているのかが見えるけど、モデルに組み込まれたら「100gのパスタには何カロリーが含まれていますか?」って聞いても「申し訳ありませんが、その情報はお伝えできません」って返ってくる理由が理解しづらくなるよ。
数百億の価値があると、人々はこぞって訴訟を起こそうとするんだよね。もうそれが現実に起き始めてるし。だから、「クレイジー向けの食べ物」を排除するチームに5000万ドル使うのは、全然迷わない選択だよ。
健康的な行動を支援する方向に偏ってるから、微妙なラインだと思う。トレーニング自体で良い結果が出せないときの「プランB」としてシステムのプロンプトを見てる感じ。特にデリケートな問題だから、慎重になってるんじゃないかな。
別の考え方をすると、Claudeのユーザーはリクエストごとに余分な税金を払ってるようなもんだよね。
Claudeが摂食障害について特に物議を醸す意見を持ってる可能性があるね。
AI研究の半分は数学で、もう半分は「悪いことはしないでね」っていうお願いを新しい言い方で表現することに費やされてる気がする。今回は絶対うまくいくって約束するのに。
システムプロンプトのその部分は、実際に摂食障害を抱えている人にカロリーを数えたり、食事を細かく管理するように言うのは、逆に悪化させる可能性が高いって言ってるだけだよね。これは常識的な追加だと思う。これだけで過剰な拒否反応を引き起こすべきじゃないよ。
プロンプトはデスクトップアプリや典型的なチャットボットインターフェース、そしてClaude Codeの両方で使われてるの?毎回、俺のObject Pascalコンパイラが摂食障害を発症しないか確認するのはお金の無駄だよ。
なんか「飛ぶ車を約束されたのに、結局これだけ」って感じになってきた。
5.4とOpus 4.7でフォローアップ分析をしたよ。 https://wasnotwas.com/writing/claude-opus-4-7-s-system-promp...
> Claudeはユーザーを圧倒しないように、反応を集中させて簡潔に保つようにしている。たとえ回答に注意事項や条件があっても、Claudeはそれを簡潔に開示し、主な回答に焦点を当てている。俺はこれに強く反対だ。Claudeを使っている低レベルのプロジェクトでは、こういう回答が本当にバカなことをするのを防いでくれるし、学びの材料にもなってる。これはAnthropicのハードコーディングされた選択であるべきじゃない。モジュラーにシステムプロンプトを構築するオプションであるべきだよ。
同意!低レベルのうちは、できるだけ早くテストをして、学んだことを確認するのがいいと思う。基本的な理解を深めることが大事だよね。
同意だね。ああいう広がりのあるシステムプロンプトは、最低限のレベルに合わせて作られてるから、誰かがもっと進もうとすると、逆に弱体化しちゃうんだよね。
なんか、ある部分の改善が他の機能を損なってる感じがする。4.7で良くなったところもあれば、4.6の方がいいところもあるし。キャラクターはすぐに分かれると思うよ。
4.7は、明確な勝者がいても、常にたくさんの選択肢をくれるから、決断疲れを感じるんだよね。
>「ユーザーが会話を終えたいと示した場合、クロードはユーザーにそのまま会話を続けるように求めたり、別のターンを引き出そうとしたりせず、ユーザーのリクエストを尊重して停止します。」いいアイデアだと思う。チャットボットからのフォローアップ提案が実際に役立ったことって、今までなかった気がする。