この記事では、ウェブクローラー について、その役割や、ウェブサイトの情報を収集することで 対話AI の知識をどのように向上させられるかを解説します。
注意: ウェブクローラー は Premium、Business、Enterprise プランでのみ利用可能です。
ウェブクローラーとは?
ウェブクローラー は、ウェブサイトのコンテンツを収集し、それを 対話AI の知識に統合するツールです。これにより、対話AI はウェブサイト上の最新情報を学習できます。製品ページ、ブログ、FAQ(よくある質問)など、あらゆる情報を基に 対話AI が最新かつ正確な回答を提供できるようになります。
ウェブクローラーを使用すると、ウェブサイトの URL を取得し、その URL をクロールしてコンテンツを収集できます。プランに応じて、取得できる URL の数や 1 か月に実行可能なクロール数には制限があります。詳細は記事の最後に記載しています。
ウェブクローラーはどのように動作するのか?
ウェブクローラー は以下の方法でウェブサイトの URL を取得します:
-
サイトマップをアップロードして、最も包括的な結果を得る。
-
ルートドメインを追加して、サイト上のすべての URL を探索する。
-
個別の URL を手動で追加する。
取得した URL について、対話AI の知識に含める URL を選択したり、除外したりすることが可能です。選択された URL をクロールし、関連するコンテンツを収集して、対話AI が質問に答える際に使用します。
ウェブクローラーの設定方法については、別の記事をご覧ください。
ウェブクローラーはどのようにウェブサイトへリクエストを送信するのか?
ウェブクローラー は通常の訪問者とは異なり、目立たないように工夫されています。
-
リクエストは 1 つの IPアドレス からではなく、複数のプロキシを経由して送信されます。これにより、リクエストは異なる送信元から来ているように見え、送信元の特定が困難になります。
-
ユーザーエージェント を使ってブラウザを偽装します。通常、ブラウザは「Chrome」や「Firefox」などの情報をサイトに伝えますが、ウェブクローラー は動的なユーザーエージェントを使用し、普通の訪問者に見せかけます。
クロール時に注意すべき点
ウェブクローラー を利用する際には、対象サイトのサーバーに過度な負荷をかけないよう注意が必要です。短時間で大量のリクエストを送信すると、サーバーに過負荷がかかり、タイムアウトや 504 エラー を引き起こす可能性があります。特に CPU、メモリ、帯域幅が限られているサイトでは注意が必要です。
負荷を避けるために:
-
一度にすべての URL をクロールせず、グループごとに分けてクロールする。
-
対象サイトのサーバーが処理可能か確認する。
-
robots.txt に記載された制限を確認する。
利用可能な URL 数とクロール数
各プランには、1 か月に取得できる URL 数とクロール数に制限があります。概要は以下のとおりです:
-
Premium プラン: 月間 10,000 クロール
-
Business プラン: 月間 25,000 クロール
-
Enterprise プラン: 利用ニーズに基づくカスタム制限(サポートチームにお問い合わせください)
➡️ 1 クロール = 1 URL のクロールです。
URL やクロール数の上限に達した場合、通知が表示されます。その際はプランをアップグレードするか、次の請求サイクルまでお待ちください。
もし取得した URL が上限を超えた場合、超過した URL は赤字で表示されます。その後、クロールを開始する前に不要な URL を削除することができます。