Cloudflareは、Perplexity AIがステルスクローラーを使ってウェブサイトのブロックを回避していると非難している
Cloudflareは、Perplexity AIがステルスクローラーを使ってウェブサイトのブロックを回避していると非難している
仮想通貨
資産運用
2025年08月29日

インターネットインフラプロバイダーのCloudflareによると、Perplexityのクローラーは、サイト側が明示的にブロックした後も、数万ものウェブサイトのコンテンツにアクセスし続けてたといいます。同社は月曜日、検証済みボットプログラムからPerplexityを削除し、欺瞞的なスクレイピング行為とみなされる行為をブロックしたと発表しました。

サンフランシスコに拠点を置くPerplexityは、2022年にアラビンド・スリニヴァス(CEO、元OpenAI研究者)、デニス・ヤラッツ(元Facebook AI)、ジョニー・ホー、アンディ・コンウィンスキー(Databricks共同創業者)によって設立されました。同社はエラッド・ギル、ナット・フリードマン(元GitHub CEO)、NVIDIAをはじめとする投資家から資金提供を受けており、先月1億ドルを調達したことで評価額は180億ドルに達しました。

最近の紛争は、Cloudflareの顧客が、AI企業Perplexityが宣言したクローラーをブロックするためにrobots.txtディレクティブと特定のファイアウォールルールの両方を導入したにもかかわらず、Perplexityが依然としてサイトをスクレイピングしていると苦情を申し立てたことから勃発しました。CloudflareのエンジニアであるGabriel Corral氏、Vaibhav Singhal氏、Brian Mitchell氏、Reid Tatoris氏はテストで、「Perplexityのクローラーは、問題の特定のページで実際にブロックされていた」ことを確認しました。

Perplexityの動作をテストするため、Cloudflareは複数の新規ドメインを作成し、それらにrobots.txtファイルによる制限を課し、すべての自動アクセスを禁止しました。「これらのドメインに関する質問をPerplexity AIにクエリする実験を行ったところ、Perplexityは依然として、これらの制限されたドメインでホストされているコンテンツに関する詳細な情報を提供していることがわかりました。」

その後の展開は彼らを驚かせました。Perplexityはブロックを尊重するどころか、戦術を変えたようです。「Perplexityは、宣言したユーザーエージェントだけでなく、宣言したクローラーがブロックされた際にmacOS上でGoogle Chromeを偽装することを意図した汎用ブラウザも使用していたことが確認された」とエンジニアたちは記しています。

出典: Cloudflare

ステルスクローラーは高度な回避技術を採用していました。「この未宣言のクローラーは、Perplexityの公式IPアドレス範囲に記載されていない複数のIPアドレスを利用し、Cloudflareによる制限的なrobots.txtポリシーとブロックに応じてこれらのIPアドレスをローテーションしていました。IPのローテーションに加えて、ウェブサイトのブロックをさらに回避するために、異なるAS番号からのリクエストが送信されていることも確認されました。」

Cloudflareによると、Perplexityの「宣言済み」クローラー(簡単に識別できるクローラー)は1日あたり2,000万~2,500万件のリクエストを生成し、一方、目的を隠すために怪しい戦術を用いる「非宣言ステルスクローラー」は1日あたり300万~600万件のリクエストを追加しているといいます。「このアクティビティは、数万のドメインで、1日あたり数百万件のリクエストで確認されました。」

同社はDecryptのコメント要請に応じなませんでした。広報担当者はTechCrunchに対し、これらの疑惑はCloudflareの「売り込み」に過ぎないと一蹴しました。

CloudflareのCEO、マシュー・プリンス氏は、AI企業によるウェブコンテンツの抽出が持続不可能だとの見解を声高に表明してきました。「人々がAIによる要約にますます依存するようになり、検索トラフィックの参照元は急落している」。7月には、プリンス氏は壊滅的な比率を明らかにした。Googleはクロールするページ18件につき1人の訪問者を送っているのに対し、AI企業はそれよりもはるかに悪いです。OpenAIの比率は、6ヶ月前の250対1から現在では1,500対1に悪化しています。Anthropicの数値はさらに極端で、同時期に6,000対1から60,000対1に急増しています。

出典: Cloudflare

これをきっかけに、Cloudflare は「コンテンツ独立記念日」と呼ばれる取り組みを開始し、すべての新規ドメインに対して AI クローラーをデフォルトでブロックするようになりました。これにより、Cloudflare は、厄介な AI クローラーの脅威からコンテンツ作成者を守る事実上の自警団となりました。

Decryptが以前に報じたように、昨年秋以降、すでに100万以上のウェブサイトがブロッキングを選択しており、AP通信タイム誌アトランティック誌BuzzFeed、Reddit、Quora、ユニバーサル ミュージック グループなど大手出版社もこの動きに加わっています。

Cloudflareは、「クローラーは透明性を保ち、明確な目的を持ち、特定のアクティビティを実行し、そして最も重要なのは、ウェブサイトの指示と設定に従うべきであるという明確な基準があります」と述べています。同社はPerplexityの行動をOpenAIの行動と比較し、OpenAIはrobots.txtファイルを適切に尊重し、ブロックされた場合にはクロールを停止すると述べています。

Cloudflareの対応には、即時の技術的対策と長期的な取り組みの両方が含まれています。同社は、ステルスクローラーのシグネチャーマッチをマネージドルールに導入し、無料ユーザーを含むすべての顧客に提供しています。また、違反ボットを偽コンテンツの迷路に閉じ込める「AIラビリンス」や、パブリッシャーがAI企業にコンテンツへのアクセス料金を請求できる「ペイパークロール」マーケットプレイスなどのツールも開発しています。

decrypt.co↗

この記事をシェア
©︎投資のいろは