Kimiベンダー検証ツール – 推論プロバイダーの正確性を検証する
12時間前原文(www.kimi.com)
概要
- **Kimi Vendor Verifier (KVV)**のオープンソース化による信頼性強化
- 推論実装の正確性検証の重要性
- 公式ベンチマークと第三者API間の品質ギャップの指摘
- 6つの重要ベンチマークによる包括的な評価
- 継続的なベンダー評価とコミュニティ連携の推進
「Chain of Trust」の再構築:Kimi Vendor Verifier
- Kimi K2.6モデルリリースと同時に、Kimi Vendor Verifier (KVV)プロジェクトをオープンソース化
- オープンソースモデル利用者が、推論実装の正確性を自ら検証できる仕組みの提供
- モデル公開だけでなく、各環境での正確な動作保証が不可欠との認識
- Kimi API K2VV評価結果も公開し、F1スコア計算の透明性を確保
KVV開発の背景
- K2 Thinking公開以降、コミュニティからベンチマークスコア異常の報告が頻発
- 多くのケースでDecodingパラメータの誤用が原因と判明
- APIレベルでの防御策(Temperature=1.0、TopP=0.95強制・Thinking内容の検証)を実装
- さらに微細な異常も発覚し、公式APIとサードパーティAPI間の大きな差異を確認
- オープンソースモデルの普及により、品質管理が困難化
- 「モデル自体の欠陥」と「実装上の逸脱」の区別が難しくなり、信頼性低下のリスク増大
KVVによる解決策
- 6つの重要ベンチマークで広範な検証を実施
- Pre-Verification:APIパラメータ制約(temperature, top_p等)の遵守確認
- OCRBench:マルチモーダルパイプラインの5分スモークテスト
- MMMU Pro:Vision入力前処理の多様性検証
- AIME2025:長文出力ストレステストでKVキャッシュや量子化劣化を検出
- K2VV ToolCall:トリガー一貫性(F1)とJSON Schema精度の測定
- SWE-Bench:総合的なエージェントコーディングテスト(依存関係のため未公開)
- vLLM/SGLang/KTransformersコミュニティと連携し、根本的な修正を推進
- 事前検証の仕組みで、ユーザー利用前にインフラ提供者が自社スタックを評価可能
- 公開リーダーボードでベンダーごとの結果を透明化し、品質向上を促進
評価コストと効率化
- NVIDIA H20 8-GPUサーバー2台で全評価ワークフローを検証
- 逐次実行で約15時間を要するが、長時間推論向けにスクリプトを最適化
- ストリーミング推論・自動リトライ・チェックポイント再開などの効率化機構を実装
オープンな招待
- モデル重みの公開だけでなく、正しい運用知識の共有もオープンに
- ベンダーカバレッジの拡大と、より軽量なエージェントテストの模索
- 問い合わせ先:[email protected]