ウェブクローラー 用サイトマップ作成のベストプラクティス

この記事では、ウェブクローラー 用に最適化されたサイトマップを作成するためのヒントと、従うべきベストプラクティスを紹介します。

適切に構成された .xml サイトマップ は、対話AIでウェブクローラー を使用する際に不可欠な要素です。これにより、ウェブサイトの重要なページがすべてクロールに含まれ、対話AI が最も関連性の高いコンテンツにアクセスできるようになります。

なぜ ウェブクローラー にサイトマップが重要なのか?

サイトマップは ウェブクローラー にとって地図のようなものです。クロールしてほしいウェブサイト上のすべての URL の一覧を含んでいます。整理されたサイトマップをアップロードすることで、ウェブクローラー が正確にどのページをクロールし、対話AI のナレッジベースに統合すべきかを把握できます。

適切に作成されたサイトマップにより、ウェブクローラー は以下を実現できます:

  • 重要なページへのアクセス: 商品ページ、FAQ、ブログなどの重要ページを必ず含めましょう。

  • 時間の節約: 個別に URL を追加する代わりに、ウェブクローラー がサイトマップを使って自動的に重要な URL を取得します。

  • 正確なコンテンツの提供: サイトマップがあれば、対話AI は常に最新のコンテンツを把握できます。

効果的なサイトマップのベストプラクティス

重要なページのみを含める

サイトマップには ウェブクローラー にクロールさせたい、最も関連性が高く重要なページのみを含めましょう。フィルタ付きの重複ページや管理画面など、不要なページは避けてください。

含めるべき重要なページ例:

  • ホームページ

  • 商品・サービスページ

  • ブログ・FAQ セクション

  • お問い合わせページ・料金ページ

.xml サイトマップでシンプルかつ明確な URL 構造を作成する

サイトマップは明確で整理された URL 構造に従う必要があります。URL はクリーンで簡潔、理解しやすいものにしてください。以下のような構造がおすすめです:

 
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/foo.html</loc>
<lastmod>2022-06-04</lastmod>
</url>
</urlset>

説明的な URL を使用する

URL はページ内容をわかりやすく表現しましょう。
例: /blog/best-practices-for-対話AI のようにし、/page?id=12345 のような形式は避けます。これにより ウェブクローラー だけでなく検索エンジンにもページの内容を理解させやすくなります。

サイトマップのサイズを制限する

サイトマップには多くの URL を含められますが、パフォーマンス問題を避けるために 1 サイトマップあたり 50,000 URL または 50MB に制限することを推奨します。
大規模サイトの場合は、複数のサイトマップに分割し、ウェブクローラー が処理しやすいようにしましょう。

詳しくは Google のサイトマップ制限に関するガイドラインを参照してください。

サイトマップを常に最新に保つ

重要なコンテンツを追加・削除・更新した際は、必ずサイトマップを更新してください。これにより、ウェブクローラー が常に最新のサイトバージョンにアクセスできます。

ブロックされた URL を含めない

robots.txt でブロックされた URL や noindex タグのあるページをサイトマップに含めないでください。これらのページはクロールされず、対話AI のナレッジベースが不完全になる可能性があります。

サイトマップの作成方法

サイトマップの作成は比較的簡単で、いくつかの方法があります:

  • CMS プラグイン: WordPress など多くの CMS には、自動的に XML サイトマップを生成するプラグイン(例: Yoast SEO, All in One SEO)があります。

  • オンラインツール: 無料のオンラインジェネレーター(例: XML-sitemaps.com)を使って簡単に作成可能です。

  • 手動作成: コードに慣れていれば、カスタム XML サイトマップを手動で作成できます。詳しい手順は Google の公式サイトマップガイドを参照してください。

作成したサイトマップは、Agents の ウェブクローラー にアップロードすることで、ウェブサイトのコンテンツクロールにおいて最良の結果を得られます。

ウェブクローラー の設定と利用方法はこちら