ウェブクローラーとは何で、どのように動作するのか？

注意: ウェブクローラー は Premium、Business、Enterprise プランでのみ利用可能です。

ウェブクローラーとは？

ウェブクローラー は、ウェブサイトのコンテンツを収集し、それを 対話AI の知識に統合するツールです。これにより、対話AI はウェブサイト上の最新情報を学習できます。製品ページ、ブログ、FAQ（よくある質問）など、あらゆる情報を基に 対話AI が最新かつ正確な回答を提供できるようになります。

ウェブクローラーを使用すると、ウェブサイトの URL を取得し、その URL をクロールしてコンテンツを収集できます。プランに応じて、取得できる URL の数や 1 か月に実行可能なクロール数には制限があります。詳細は記事の最後に記載しています。

ウェブクローラーはどのように動作するのか？

ウェブクローラー は以下の方法でウェブサイトの URL を取得します：

サイトマップをアップロードして、最も包括的な結果を得る。
ルートドメインを追加して、サイト上のすべての URL を探索する。
個別の URL を手動で追加する。

取得した URL について、対話AI の知識に含める URL を選択したり、除外したりすることが可能です。選択された URL をクロールし、関連するコンテンツを収集して、対話AI が質問に答える際に使用します。

ウェブクローラーの設定方法については、別の記事をご覧ください。

ウェブクローラーはどのようにウェブサイトへリクエストを送信するのか？

ウェブクローラー は通常の訪問者とは異なり、目立たないように工夫されています。

リクエストは 1 つの IPアドレス からではなく、複数のプロキシを経由して送信されます。これにより、リクエストは異なる送信元から来ているように見え、送信元の特定が困難になります。
ユーザーエージェント を使ってブラウザを偽装します。通常、ブラウザは「Chrome」や「Firefox」などの情報をサイトに伝えますが、ウェブクローラー は動的なユーザーエージェントを使用し、普通の訪問者に見せかけます。

⚠️ 重要: WebクローラーがどのIPアドレスからあなたのウェブサイトにアクセスしているのかを正確に特定することはできません。私たちもこの情報を確認することはできません。

クロール時に注意すべき点

ウェブクローラー を利用する際には、対象サイトのサーバーに過度な負荷をかけないよう注意が必要です。短時間で大量のリクエストを送信すると、サーバーに過負荷がかかり、タイムアウトや 504 エラー を引き起こす可能性があります。特に CPU、メモリ、帯域幅が限られているサイトでは注意が必要です。

負荷を避けるために：

一度にすべての URL をクロールせず、グループごとに分けてクロールする。
対象サイトのサーバーが処理可能か確認する。
robots.txt に記載された制限を確認する。

利用可能な URL 数とクロール数

各プランには、1 か月に取得できる URL 数とクロール数に制限があります。概要は以下のとおりです：

Premium プラン: 月間 10,000 クロール
Business プラン: 月間 25,000 クロール
Enterprise プラン: 利用ニーズに基づくカスタム制限（サポートチームにお問い合わせください）

➡️ 1 クロール = 1 URL のクロールです。

URL やクロール数の上限に達した場合、通知が表示されます。その際はプランをアップグレードするか、次の請求サイクルまでお待ちください。

もし取得した URL が上限を超えた場合、超過した URL は赤字で表示されます。その後、クロールを開始する前に不要な URL を削除することができます。

ウェブクローラーとは何で、どのように動作するのか？

この記事では、ウェブクローラー について、その役割や、ウェブサイトの情報を収集することで 対話AI の知識をどのように向上させられるかを解説します。