この記事では、ウェブクローラー 用に最適化されたサイトマップを作成するためのヒントと、従うべきベストプラクティスを紹介します。
適切に構成された .xml サイトマップ は、対話AIでウェブクローラー を使用する際に不可欠な要素です。これにより、ウェブサイトの重要なページがすべてクロールに含まれ、対話AI が最も関連性の高いコンテンツにアクセスできるようになります。
なぜ ウェブクローラー にサイトマップが重要なのか?
サイトマップは ウェブクローラー にとって地図のようなものです。クロールしてほしいウェブサイト上のすべての URL の一覧を含んでいます。整理されたサイトマップをアップロードすることで、ウェブクローラー が正確にどのページをクロールし、対話AI のナレッジベースに統合すべきかを把握できます。
適切に作成されたサイトマップにより、ウェブクローラー は以下を実現できます:
-
重要なページへのアクセス: 商品ページ、FAQ、ブログなどの重要ページを必ず含めましょう。
-
時間の節約: 個別に URL を追加する代わりに、ウェブクローラー がサイトマップを使って自動的に重要な URL を取得します。
-
正確なコンテンツの提供: サイトマップがあれば、対話AI は常に最新のコンテンツを把握できます。
効果的なサイトマップのベストプラクティス
重要なページのみを含める
サイトマップには ウェブクローラー にクロールさせたい、最も関連性が高く重要なページのみを含めましょう。フィルタ付きの重複ページや管理画面など、不要なページは避けてください。
含めるべき重要なページ例:
-
ホームページ
-
商品・サービスページ
-
ブログ・FAQ セクション
-
お問い合わせページ・料金ページ
.xml サイトマップでシンプルかつ明確な URL 構造を作成する
サイトマップは明確で整理された URL 構造に従う必要があります。URL はクリーンで簡潔、理解しやすいものにしてください。以下のような構造がおすすめです:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/foo.html</loc>
<lastmod>2022-06-04</lastmod>
</url>
</urlset>
説明的な URL を使用する
URL はページ内容をわかりやすく表現しましょう。
例: /blog/best-practices-for-対話AI
のようにし、/page?id=12345
のような形式は避けます。これにより ウェブクローラー だけでなく検索エンジンにもページの内容を理解させやすくなります。
サイトマップのサイズを制限する
サイトマップには多くの URL を含められますが、パフォーマンス問題を避けるために 1 サイトマップあたり 50,000 URL または 50MB に制限することを推奨します。
大規模サイトの場合は、複数のサイトマップに分割し、ウェブクローラー が処理しやすいようにしましょう。
詳しくは Google のサイトマップ制限に関するガイドラインを参照してください。
サイトマップを常に最新に保つ
重要なコンテンツを追加・削除・更新した際は、必ずサイトマップを更新してください。これにより、ウェブクローラー が常に最新のサイトバージョンにアクセスできます。
ブロックされた URL を含めない
robots.txt でブロックされた URL や noindex タグのあるページをサイトマップに含めないでください。これらのページはクロールされず、対話AI のナレッジベースが不完全になる可能性があります。
サイトマップの作成方法
サイトマップの作成は比較的簡単で、いくつかの方法があります:
-
CMS プラグイン: WordPress など多くの CMS には、自動的に XML サイトマップを生成するプラグイン(例: Yoast SEO, All in One SEO)があります。
-
オンラインツール: 無料のオンラインジェネレーター(例: XML-sitemaps.com)を使って簡単に作成可能です。
-
手動作成: コードに慣れていれば、カスタム XML サイトマップを手動で作成できます。詳しい手順は Google の公式サイトマップガイドを参照してください。
作成したサイトマップは、Agents の ウェブクローラー にアップロードすることで、ウェブサイトのコンテンツクロールにおいて最良の結果を得られます。
ウェブクローラー の設定と利用方法はこちら