火に火で対抗する：スケーラブルな口頭試験

104日前原文(www.behind-the-enemy-lines.com)

概要

AI/ML Product Managementの授業でVoice AIを活用した口頭試験を導入
LLM利用の課題に対応し、従来の筆記試験の限界を克服
ElevenLabs Conversational AIで試験官エージェントを構築
コスト削減とフィードバック品質向上を実現
運用上の問題点とその改善策を詳細に分析

AI/ML Product Management授業におけるVoice AI口頭試験の導入

Cold Callingから始まった、課題提出内容と実際の理解度のギャップ発見
LLM（大規模言語モデル）利用により、課題提出物の信頼性低下
リアルタイムでの説明・防御を求める口頭試験の必要性
従来の対面口頭試験の非効率性（大人数対応困難）という課題

ElevenLabs Conversational AIの活用

音声認識・合成、会話制御等を一括で提供するプラットフォーム
ダイナミック変数による個別化とワークフロー設計による複数エージェント運用
- 認証エージェント：学生ID確認
- プロジェクト議論エージェント：プロジェクト内容に基づく質問
- ケース議論エージェント：授業内ケースをもとに質疑
**RAG（Retrieval Augmented Generation）**の今後の活用可能性

試験運用の実績

36名の学生を9日間で実施、1人平均25分
1人あたりコスト42セント（合計15ドル）、従来比50倍以上の効率化
**3モデル（Claude, Gemini, ChatGPT）**による合議制自動採点
フィードバックの質の向上（構造化された強み・弱み・改善案）

Voice Agent運用で発生した課題と改善策

声が威圧的：学生の不安増大→複数声質のA/Bテストを今後実施
質問の多重化：1ターンで複数質問→1問ずつのルール徹底、部分解答でも全得点
質問の言い換え問題：再質問時に内容が変化→逐語的リピートを指示
思考時間の不足：沈黙をすぐ遮る→待機時間延長と追い質問の抑制
ケース選択の非ランダム性：LLMのバイアス→外部で乱数生成し割当

LLM合議制採点の実際

初回採点はバラバラ（例：Geminiは甘く、Claudeは厳格）
相互評価・証拠提示後、採点一致率が大幅向上
評価の不一致は学生回答の曖昧さに起因（特に実験設計の項目）
人間教員との採点比較でもLLMの方が一貫性・厳格性あり
フィードバック内容も人間より詳細・具体的

導入の意義と今後の展望

AIによる口頭試験は、LLM時代の理解度評価として現実的選択肢
低コスト・高効率・高品質なフィードバックの実現
声質や質問設計などUXの継続的改善が今後の課題
AI合議制採点は人間以上の一貫性・透明性確保に寄与
教育現場の評価方法のパラダイムシフトの可能性

Hackerたちの意見

> 多くの学生が考え抜かれた、よく構成された作品を提出したのに、フォローアップの質問を2つ受けた後、自分の提出物の基本的な選択を説明できなかった。私がたくさん採用をしていたとき、候補者が自分でできる持ち帰り問題のオプションを提供していた（批判しないで、これは彼らが選べる代替案だった）。それは経験豊富な開発者が10〜15分で解けるような問題で、少し手を加えてドキュメントを整え、1時間以内に提出できる程度のものでした。候補者には、次のステップで提出物について話し合うと言ったにもかかわらず、翌日にはまったく理解できない解決策を提出する候補者がいました。これはLLMが役立つ寸前の時期で、多くの解決策が友達からのものやインターネットからコピーされたもので、あまり考えられていなかったと思います。今やLLMは役立つし、広く知られているので、それを使って不正をする誘惑は大きいです。いろんな理由から、学生や応募者は、友達から答えをコピーすることに抵抗を感じない状況でLLMを使うことを不正とは思っていないと思います。LLMは利用可能なツールだから、使ってもいいはずだという考えです。しかし、その主張の明らかな問題は、私たちは学生や応募者のLLMを使う能力をテストしているわけではなく、彼ら自身のスキルやコミュニケーションを探るために合成問題を使っているということです。私が知っている採用マネージャーの中には、面接中にLLMを使うことを全面的に許可していた人たちが、今は方針を変えている人もいます。LLMを使った面接は、候補者がそのLLMにどれだけ慣れているかを測るだけの演習になってしまっていました。この記事で使われているいくつかの手法にはあまり賛同できませんが、彼らが直面している問題は非常に現実的です。

└

「合成代名詞を使ってるんだ」興味をそそられた！

> フェイクフォスター、愛してるけど、ジェネレーションZは君に準備ができてないよ。ジェネレーションZについて教えないで。大学の頃、微積分の口頭試験があって、教授は威圧的だった。彼が試験官のときは毎回ギリギリで合格してたけど、彼の助手と話すときはまあまあうまくいってた。普段は感情を抑えられるけど、教授の前では無理だったな。多分、その場合のトリガーは教授の口調だけじゃなくて、普段の彼の口調（すごくフレンドリー）と試験のときの口調の違いだった。初めての試験では全く予想外で、何回もそれにさらされても慣れなかった。回数を重ねるごとに悪化していった気がする。今ならそんな問題は簡単に克服できるけど、当時はまだ未熟だったからね。一方で、AIが私にそんな影響を与えるかどうかは疑問だ。AIを人間として扱うことはできないし、仮にそうしたいと思っても、ただのクソプログラムだから。完璧に有効な値の借用を受け入れないコンパイラに文句を言えるなら、私の生活を難しくするAIにも文句を言える。主にAIに対しては別の感情的な問題があって、小さなミスをするたびにイライラしたり怒ったりするけど、これは簡単に克服できた。

└

イタリアでは、すべての試験に口頭の要素があって、小学校から大学まで続くんだ。そんな状況では全然うまくいかなくて、頭が真っ白になっちゃう。これがなければいいのに。面接も似てるけど、ちょっと違う：自分をアピールしてるから。

じゃあ次はどうなるの？学生がAIを使って音声合成で「口頭」試験の質問に答えるってこと？そこからどう進むの？近いうちに、これは本物の人間に戻らざるを得なくなると思う。

└

テレプロンプターがあれば、これらの試験で簡単に不正ができるよ、撮影されていてもね。正しく配置された二面鏡があれば、カメラを見ながら普通に見えるし、読みながらも全然問題ない。次のステップは骨伝導マイク、スマートグラス、イヤリング…そして、正直で社交不安を抱える人を排除すること。

└

数十の電話ブースからなる試験スペースは、あなたのキュービクルオフィスを魅力的でインスパイアリングに見せるだろうね。

学生一人あたりのコストを考えると、学期中にいくつかの任意の試験を実施するのは理にかなっているかもしれない。これにより、学生はフォーマットに慣れる機会が得られ、理解度を確認できるし、声が非常に威圧的であればそれにも慣れることができる。ちなみに、36人の学生で口頭試験ができないのは驚きだ。もっと多くの参加者がいるコースで口頭試験を受けたことがたくさんある気がする。でも、損益分岐点は国によってかなり違うんだろうね。

└

私の大学（プラハのカレル大学）では、200人以上の口頭試験があったよ（いくつかの異なるセッションに分かれて）。

└

> ちなみに、36人の学生で口頭試験ができないのは驚きだ。試験の頻度や深さによるよ。口頭試験でどれだけの知識をテストできるか、2時間の筆記試験に似たものになるのか？（特に、自分の経験を思い出すと、割り当てられた時間の3/4をアイデアをスケッチするのに使い、最後の1/4で焦って答えを書くことになるから）。もし私が教師なら、学生をサンプリングする経験があるだろう。間違った答えを出す学生に偏ったサンプルを取るかもしれないけど、それが良いフィードバックループ（「クラスの前で再度尋問されたくないから勉強する」）か、悪いフィードバックループ（「いじめられている、改善するより悪化している、これが嫌で諦める」）を始めるかもしれない。

└

記事の最後にこれが書いてあるよ: 「そして、ここが美味しい部分だ: 学生に全ての設定を渡して、何度も練習させて試験に備えさせることができる。漏洩した問題が大惨事になる従来の試験とは違って、ここでは毎回新しい問題が生成される。練習すればするほど、上達する。それが…実際に学ぶってこういうことなんだ。」

└

もちろん可能だよ！でも、TAを雇うのに一日の授業料のほんの一部で済むのに、わざわざチャットボットを作ろうとするなんて…本当に驚きだよ。最高の成績の学生だけで口頭試験をやれば、もっと可能性があるじゃん。それが目的でしょ？優秀な学生が本当に理解しているかを確認するために。80%以上の成績の学生と10分も話す時間がないの？お願いだから。

└

口頭試験はちゃんとスケールするよ。TAは時給25ドルで、口頭試験はせいぜい1時間かかるだけ。LLMに試験をやらせる代わりに25ドルの授業料の割引なんて絶対受け入れないよ。

これ、私にはすごくクレイジーに感じる。LLMがまだGoogleのエンジニアのブレインファートとして存在するずっと前に学校に行ってたけど、私の試験の受け方はすでにAI対策済みだった。全てペンで手書き、監督のいる体育館で。オープンブックなし。コンピュータやスマホもなし、特にインターネットに接続されたものは。数学の授業用に認可された電卓だけ。アセンブリやC++のコードを手書きで書いて、コンパイルされることが期待されてた。提出する前に自分でコンパイルするチャンスなんてなかった。試験を受けるのに3時間あった。これが全て。カンニングの匂いがしたら、即退学。ゴーを通過せず、200ドルももらえない。初めに1000人いたプログラムのコホートで卒業生は10人未満だった。これが普通だった。ちゃんと教材を学ぶことが期待されてた。大学はあなたの寄付に感謝してる。AIに「適応」しようとしてる話を読むと、クレイジーピルを飲んでる気分になる。私たちはすでに解決策を持ってたのに。

└

同僚たちが（LLMの前に）口頭試験は理解度を診断するのにペーパー試験より優れていると主張してたことがある。どうやってその主張を検証するかは分からないけど、もしその前提が正しければ、スケールする方法を見つける価値はあるかも。これがその方法だとは言わないけど、口頭試験を完全に否定するのはフェアじゃないと思う。

└

TFAのケースは、学生が提出したプロジェクト作品に関する試験だった。それは同じことじゃない。そういう文脈がないもっと伝統的な試験でも、AIに採点を頼りたくなるかもしれない。（そう、分かってる、これは「学生はカンニングのためにAIを使っちゃダメだけど、教授は使っていい！」って聞こえるよね。）それに、私の意見では口頭試験は準備ができている人とそうでない人を見分けるのにかなり効果的だと思う。逆に、外向的で自信のある人を助けてしまうこともあるから、そのバイアスを防ぐことには気をつけないといけないね。

└

君の言ってることには基本的に同意するけど、こういうことも言いたい。 > 「手書きでアセンブリやC++のコードを書いたけど、コンパイルされるのが前提だった。提出する前に自分でコンパイルするチャンスなんてなかった。」これが本当に誰かの能力を評価する最良の方法だと思ってるの？両極端の間に妥協点を見つけられないかな？個人的には、学校が提供するコンピュータで開発環境とドキュメントにアクセスできるのがいいと思う。LLMは、せいぜい（でも多分無理だろうけど）高レベルのコースだけでいいよ。

└

> 「最初に1000人の学生がいるプログラムで、卒業生は10人未満だった。これが普通だった。」これがどうして自慢になるの？詐欺みたいに聞こえるよ。しっかり教えられて成功するって売り込まれて、支払って、厳しいフィルターを通されて、結局1%しか合格しない。失敗したら100%の責任を負わされる。残りの990人にも同じことが繰り返される。「大学はあなたの寄付に感謝します」ってスローガン、急に魅力がなくなるね。これは教育と学びに対する悪意のあるコンプライアンスみたいなもんだ。教授たちの状況や、私が学んでいた場所、学生たちの状況を考えれば、驚くことじゃないよ。ちなみに、私も（いくつかの授業では）同じようにテストされた。人はまだカンニングしてたし、採点の厳しさもバラバラだった。人は試験が終わった後すぐに全部忘れて次に進むし、質問を暗記して解答集を作って、次の年のクラスに渡してた。これだけじゃ何も解決しないよ。新しい質問を作り続ける必要があるし、単にキーの値を入れ替えるだけじゃダメだよ。

└

1000人を入学させて10人卒業するってことは、入試で全く審査をしてないバカがいるってことだね。

└

君の大学プログラムが99%の失敗率だなんて、全く信じられないよ。そんな大学は閉鎖して部品として売るべきだね。

└

俺にとって驚くべきことは、君がそれを教育評価の金字塔として受け入れたことだよ。比較のために言うと、俺たちは毎週、監獄のターミナルで長時間Cプログラムを書いて、特定のアルゴリズムをカバーして、コンパイルやデバッグをしてた。アシスタントが進捗を見守って、ちゃんと理解できてるか確認してくれた。時間内に終わらなかった人は追加のセッションがあった。最後の試験は非常にシンプルで、全体の評価にはほとんど影響しなかった。それはあまりスケールしないかもしれないけど、俺が本当に望むのは、君が描いてるチャック・ノリス風の詰め込み教育の試験じゃなくて、そういうやつなんだ。

└

そうだね、でも今日の大きな違いは学生の数と、どれだけの学生が非伝統的なプログラムを受けているかだよ。真剣な大学が提供するオンライン専用のプログラムがたくさんある。一定の学生数を超えると、昔のやり方はうまくいかないんだよね。

└

閉じた本でのテストにはかなり懐疑的だ。俺の意見では、そうする理由は1) 暗記力を試すことが目的の場合（これは分野によっては価値があることもあるけど）、または2) テスト自体が実際には難しくなくて、質問が本当の理解を試すために必要な「統合」を要求していない場合が多い。

「成績を出す前に学生にアンケートを取って、彼らの体験を把握した。[...] AIの口頭形式を好んだのはたった13%。57%は従来の筆記試験を望んでいた。[...] 83%の学生が口頭試験のフレームワークは筆記試験よりもストレスが多いと感じていた。[...]」「持ち帰り試験は死んだ。教室でペンと紙の試験に戻るのは後退のように感じる。」うーん、記事の結論がデータと本当に合ってるのかは疑問だね。学生たちはAIに話しかけるよう招待された。彼らはそうしたし、その結果、筆記試験を明確に好むことを表明した。カンニングを防ぐために試験条件下で受けられる筆記試験は、大学が何百年も経験してきたことだし。コロナの時にオンライン評価の四角い車輪を使い始めた大学もあるけど、四角い車輪しか見たことがないなら、この八角形の車輪が良さそうに見えるのも分かる。でも、実際には円形の車輪の方がいいんだよね。再発明する必要なんてない。

└

それが私にとって驚きなんだ - データは明らかに実験がひどい結果だったことを示してる。なのに、著者は「素晴らしい成功！」って言ってるだけ。最も重要なことをテストすることすらしなかった。LLMの評価は正確だったのか！採点者に手動で評価させて、LLMがどれくらい近かったのか、あるいは全然違ってたのかを見てみるべきだ。これは明らかに、データが何を示そうとも結論を促進したい人のようだね。

└

問題は、手書きをテキストに変換する信頼できる自動化された方法がない限り、スケーラブルではないってことだね。

└

君が引用した部分は記事の結論じゃないよ。それは明白な主張で、記事の最初の文（「持ち帰り試験は死んだ」）でも良かったくらいだし、その後に実験を促した意見（「戻るのは退行のように感じる」）が続くんだ。一部の大学や教授は、持ち帰り試験の形式に移行しようとしていて、短すぎる授業内試験や、精神的・身体的なスタミナに対する不合理な期待が要因となる長時間の授業外試験よりも、より包括的な評価が可能になるんだ。「持ち帰り試験は死んだ」というのは明白で、記事の実験の結果じゃないよ。持ち帰り試験でカンニングする方法は限られていて、ほとんどが道徳心のない第二の人を見つけることに関わってた。今は、一人で持ち帰り試験でカンニングするのは簡単だよ。君は伝統的な筆記試験に対する大学の何百年もの経験についても触れてたけど、テストすべき知識やスキルの種類や方法は、学問によって大きく異なるし、コンピュータサイエンスやソフトウェアエンジニアリングの分野はまだ新しいから、試験の技術が成熟したとは言えないよ。最後に、学生の好みが試験の質や教育の何かを測る基準になるとは思えないね。

└

ある学生はAIと60分以上話さなきゃいけなかったんだ。これってディストピアを作ってるよね。もしこれが2学期以上使われたら、学生はAIに電話を取らせるだけだよ。

└

ブログ記事のクラスには当てはまらないけど、オンラインクラスもたくさんあるよ。多くのプロは通勤せずに参加できるから、便利な場所から受講できるオンラインクラスを好むんだ。そういうクラスにはペンと紙の試験を行う余裕がないし、テストセンターに行かせるのは過剰すぎるよ。そういう環境では持ち帰り試験（または他の形式の筆記試験）は、カンニングのリスクが高くなるんだ。カンニングのハードルが低すぎるからね。口頭試験はカンニングを少し難しくするんだ。完全に不可能ではないけど、難しくはなるよ。

└

> 彼らは明確に筆記試験を好むと表現した私が学生だった頃、すべての試験がオープンブックで、採点後に回答を修正して再評価してもらえることを強く望んでいたよ。私が言いたいのは、「学生は…を好む」というのは、必ずしも最善のケースが決まったわけではないってこと。もちろん、学生は持ち帰り試験を好むだろう。だって、思い出せないことや授業に出なかったことを調べられるし、AIを使って簡単にカンニングできるからね（「LLMの声」を隠すために軽く書き直すステップがあれば）。でも、現実では、人は本当に自分の決定を説明するように求められるし、取り組んでいる問題について理由を説明できることが求められるんだ。改訂されたプロンプトを読む限り、エージェントを初回の試みよりもずっと公正で扱いやすくする意図があるのは明らかだから、これは悪いアイデアではないと思う。最後に（この部分は記事の学生のフィードバックの引用を読んで感じたことだけど）、現在の学部生は主にテキストでコミュニケーションをとることに慣れていることを考慮してほしい。さらに複雑なことに、彼らはCOVIDが流行したときに13〜17歳だったから、人との接触がさらに減っているんだ。彼らは非常に親しい友人以外の人と話すことに対して極度に緊張しているかもしれない。私は彼らに同情するけど、比較的リスクの低い状況でこの不安を克服する手助けをする方が、彼らが口頭でコミュニケーションできるようになることをあきらめるよりもいいと思う。

└

学生のカンニングと教師のテストのいたちごっこは、手の甲に書かれた最初の解答キーから何百年も続いてる気がする。

└

彼らはテクノロジーと「進歩」に夢中になってるね。

「スケーラブル」にこだわりすぎだよ。大学は今まで以上にお金持ちなんだから、安く済ませようとするんじゃなくて、口頭試験を担当する教師にちゃんと給料を払えばいいのに。ドイツでの大学院の時、ほとんどの授業が口頭試験だったけど、全然問題なかったよ。実績もあるしね。

└

+1 投票集計と同じように、学生のテストは教師だけで完璧にスケールするよ。でも、ヨーロッパではMaturaや最終ディプロマ試験で口頭試験を見たことがある。アメリカでは、すべての博士号取得者が口頭防衛を必要とするって聞いた。怠惰からAIに委ねるこの考え方は、スタニスワフ・レムの「Experimenta Felicitologica」に完璧に表れていると思う。AIはある程度ルーチンなタスクをこなすのには素晴らしいけど、対立的なものに関しては、良い解決策がすぐに見つかるとは思えない。打ち負かすAIを作るのは安く済むからね。AI戦争がどうなるのか、気になるな。

一応言っとくけど、私はこのブログ記事の著者だよ。私たちの「AI」クラスは、新しいことを試すにはいいクラスだと思ったんだ。いや、ペンと紙の試験をなくしたいわけじゃない。ちゃんと機能してるし、使ってるよ。口頭試験は別のツールに過ぎない。すべての解決策ではないんだ。私たちの場合、チームプロジェクトに取り組んだ学生が、(a) プロジェクトを理解するために十分に貢献したか、(b) 自分のプロジェクトを本当に理解していて、LLMに頼りすぎていないかを確認したかったんだ。(LLMの使用は許可してるし、使わないのはバカみたいだよね。) 口頭試験で悪い成績を取った学生は、プロジェクトプレゼンテーションでは良い成績を取ったにもかかわらず、私たちが予想していた通りの結果だった。対面でやることはできた？もちろん、36人の学生全員に個別面接をスケジュールすることはできたよ。2人の講師がいれば、数日かかるだろうけど、大したことじゃない。でも、100人の学生と1人の講師だと、それは問題になるね。だけど、重要な理由はこれだよ：研究によると、人間の面接官は疲れると実際にパフォーマンスが悪くなるし、AIはより標準化されて公正な面接を行うのに向いているんだ。その結果が、私たちが音声エージェントによる最終試験を信頼する大きな理由だったんだ。

ほとんどの「解決策」には懐疑的だな。プロンプトにもっと指示を入れれば、LLMがそれに従う可能性は高くなるかもしれないけど、確実ではないからね。

> ジェミニは、クロードやオープンAIのより厳格な評価を見た後、平均で2ポイント成績を下げた。クロードが実験の議論における特定のギャップを指摘しているのに、17点を与える正当性がなかったからだ。これは予想通りだね。大手商業LLMは一般的に、ユーザーと同意するテキストで応答する。 > でも、ここが面白いところなんだ。意見の不一致はランダムじゃなかった。問題のフレーミングとメトリクスは、1ポイント以内で100%の一致があった。実験？ 57%だけ。 > なんで？学生が明確で具体的な回答をすると、採点者は同意する。学生が曖昧な回答をすると、採点者（人間でもAIでも）は部分点をどれだけ与えるかで意見が分かれる。実験に関する低い一致は、学生の回答における本物の曖昧さを反映していて、採点者のノイズではない。LLM間の意見の不一致は興味深いね。「実験に関する低い一致が学生の回答の本物の曖昧さを反映している」と結論づけるのはためらうな。それは、回答がどのように採点されるべきかについて、採点者やLLMの側に本物の曖昧さを反映しているのかもしれない。

ハクソク