ウェブクローラーとは何で、どのように動作するのか?

この記事では、ウェブクローラー について、その役割や、ウェブサイトの情報を収集することで 対話AI の知識をどのように向上させられるかを解説します。

 注意: ウェブクローラーPremiumBusinessEnterprise プランでのみ利用可能です。

ウェブクローラーとは?

ウェブクローラー は、ウェブサイトのコンテンツを収集し、それを 対話AI の知識に統合するツールです。これにより、対話AI はウェブサイト上の最新情報を学習できます。製品ページ、ブログ、FAQ(よくある質問)など、あらゆる情報を基に 対話AI が最新かつ正確な回答を提供できるようになります。

ウェブクローラーを使用すると、ウェブサイトの URL を取得し、その URL をクロールしてコンテンツを収集できます。プランに応じて、取得できる URL の数や 1 か月に実行可能なクロール数には制限があります。詳細は記事の最後に記載しています。

ウェブクローラーはどのように動作するのか?

ウェブクローラー は以下の方法でウェブサイトの URL を取得します:

  • サイトマップをアップロードして、最も包括的な結果を得る。

  • ルートドメインを追加して、サイト上のすべての URL を探索する。

  • 個別の URL を手動で追加する。

取得した URL について、対話AI の知識に含める URL を選択したり、除外したりすることが可能です。選択された URL をクロールし、関連するコンテンツを収集して、対話AI が質問に答える際に使用します。

ウェブクローラーの設定方法については、別の記事をご覧ください。

ウェブクローラーはどのようにウェブサイトへリクエストを送信するのか?

ウェブクローラー は通常の訪問者とは異なり、目立たないように工夫されています。

  • リクエストは 1 つの IPアドレス からではなく、複数のプロキシを経由して送信されます。これにより、リクエストは異なる送信元から来ているように見え、送信元の特定が困難になります。

  • ユーザーエージェント を使ってブラウザを偽装します。通常、ブラウザは「Chrome」や「Firefox」などの情報をサイトに伝えますが、ウェブクローラー は動的なユーザーエージェントを使用し、普通の訪問者に見せかけます。

クロール時に注意すべき点

ウェブクローラー を利用する際には、対象サイトのサーバーに過度な負荷をかけないよう注意が必要です。短時間で大量のリクエストを送信すると、サーバーに過負荷がかかり、タイムアウトや 504 エラー を引き起こす可能性があります。特に CPU、メモリ、帯域幅が限られているサイトでは注意が必要です。

負荷を避けるために:

  • 一度にすべての URL をクロールせず、グループごとに分けてクロールする。

  • 対象サイトのサーバーが処理可能か確認する。

  • robots.txt に記載された制限を確認する。

利用可能な URL 数とクロール数

各プランには、1 か月に取得できる URL 数とクロール数に制限があります。概要は以下のとおりです:

  • Premium プラン: 月間 10,000 クロール

  • Business プラン: 月間 25,000 クロール

  • Enterprise プラン: 利用ニーズに基づくカスタム制限(サポートチームにお問い合わせください)

➡️ 1 クロール = 1 URL のクロールです。

URL やクロール数の上限に達した場合、通知が表示されます。その際はプランをアップグレードするか、次の請求サイクルまでお待ちください。

もし取得した URL が上限を超えた場合、超過した URL は赤字で表示されます。その後、クロールを開始する前に不要な URL を削除することができます。