ツールの使用に関する彼らの結果には疑問を持ってる。長いコンテンツをLLMで往復させると、劣化するのは当然だよね。頻繁にLLMを使ってる人は、そんなことしないって知ってるし。彼らはツールの使用が役立たなかったって言ってて驚いたけど…でも彼らはこうも言ってる:> 「これをテストするために、ファイルの読み書きやコード実行ツールを持つ基本的なエージェントハーネス(Yao et al., 2022)を実装しました(付録M)。これは最適化された最先端のエージェントシステムではありません。将来の研究では、より洗練されたハーネスを探ることができるでしょう。」そう、彼らの基本的なハーネスはread_file()とwrite_file()だけで、結局は一手間加えた往復に過ぎない!現代のコーディングエージェントハーネスは、ファイル編集のためのツールのデザインにかなりの労力をかけてる。今のお気に入りの例は、ここで説明されているClaudeの編集スイートだよ: https://platform.claude.com/docs/en/agents-and-tools/tool-us... str_replaceやinsertコマンドは、全体のファイルを往復するリスクのある編集を避けるために不可欠なんだ。少なくともrun_python()ツールは提供されてるから、より良いモデルがそれを使って文字列の置換を実行する方法を見つけた可能性がある。彼らのシステムプロンプトを見て、Pythonベースの操作を促しているのか、ファイルを読み込んでから書き込むのか確認したいな。アップデート:そのハーネスコードをここで見つけたよ https://github.com/microsoft/delegate52/blob/main/model_agen... 関連するプロンプトの一部はこうだ:タスクには、プログラム的にでも、ファイルを書き込む直接的な方法でも、最も効果的だと思う方法でアプローチできます。この手の論文は、著者が使ったハーネスのデザインがモデルそのものよりも反映されていることが多い。経験豊富なAIエンジニアやプロンプトエンジニアがこのテストでハーネス自体を改良すれば、もっと良い結果が得られる自信があるよ。