Cloudflareクローラーエンドポイント
概要
CloudflareのBrowser Renderingで新たに**/crawlエンドポイントが公開ベータとして登場。
1回のAPIコールでウェブサイト全体をクロール**可能。
HTML・Markdown・JSONなど多様な出力形式に対応。
非同期ジョブ管理で効率的なクロール運用。
Workers Free/Paidプランの両方で利用可能。
Cloudflare Browser Rendering /crawlエンドポイント概要
- /crawlエンドポイントで、指定URLからサイト全体の自動クロールを実現
- ヘッドレスブラウザによるページレンダリングと自動リンク発見
- HTML・Markdown・構造化JSON(Workers AI対応)での出力形式選択
- API非同期設計:ジョブIDで進捗・結果を個別取得
- RAGパイプライン構築やモデル学習用データ収集、サイト監視に最適
主要機能
- 複数出力形式:HTML、Markdown、JSONでのデータ取得
- クロール範囲制御:クロール深度・ページ数・ワイルドカードパターン指定
- 自動ページ発見:サイトマップ・ページ内リンクからURL抽出
- インクリメンタルクロール:modifiedSince・maxAgeで変更のないページをスキップ
- スタティックモード:render:false設定で静的HTMLのみ取得、静的サイトの高速クロール
- ロボット遵守:robots.txtの指示やcrawl-delayを厳守
利用手順
- クロール開始API例
- curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl'
-H 'Authorization: Bearer <apiToken>'
-H 'Content-Type: application/json'
-d '{ "url": "https://blog.cloudflare.com/" }'
- curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl'
- 結果確認API例
- curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}'
-H 'Authorization: Bearer <apiToken>'
- curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}'
利用条件・推奨事項
- Workers Free/Paidプランの両方で利用可能
- 公式ドキュメント参照による詳細なAPI利用手順確認
- 自サイトクロール時はrobots.txt・sitemapsのベストプラクティス遵守
活用ユースケース
- AIモデル用コーパス収集
- RAG(Retrieval-Augmented Generation)パイプライン構築
- サイト全体のコンテンツ監視・調査