In dit artikel lees je wat een sitemap is en hoe je deze kunt toevoegen aan de Web Scraper.
Wat is een sitemap?
Een sitemap kun je vergelijken met een plattegrond van je website. Het geeft een overzicht van alle pagina's en hun onderlinge verbindingen. Voor de Web Scraper is een sitemap handig, omdat het de structuur van de website beter begrijpt, wat resulteert in nauwkeurigere antwoorden van de chatbot.
In dit artikel lees je hoe je de kennis van je chatbot uitbreidt met de Web Scraper.
In dit artikel lees je wat de betekenis en werking van een Web Scraper is.
De URL van de sitemap
Wij raden je voor de beste resultaten aan om de URL van de sitemap toe te voegen aan de Web Scraper in plaats van de algemene URL van je website. De meeste sitemaps hebben de URL van de website gevolgd door "/sitemap.xml". De sitemap van de Watermelon website is bijvoorbeeld https://watermelon.ai/sitemap.xml.
Als je de sitemap niet via deze link kunt vinden, kun je bij de websitebouwer controleren of er een sitemap bestaat en zo ja, via welke URL deze bereikbaar is.
Sitemap index
Het kan zijn dat jouw website een sitemap index heeft, een soort inhoudsopgave die naar onderliggende sitemaps leidt. Dit kun je herkennen aan onderstaande afbeelding:
De sitemap index kan niet worden gescrapet. Als jouw website een sitemap index heeft, kies dan tot 3 URL's uit deze index om te laten scrapen. Selecteer de meest relevante URL's, zoals bijvoorbeeld de productpagina('s).
Sitemap toevoegen aan Document Scraper
Als je merkt dat de chatbot links stuurt die niet kloppen of niet van jouw website vandaan komen, is het aan te raden om de sitemap om te zetten naar een PDF en deze ook toe te voegen aan de Document Scraper.
Geen sitemap?
Als jouw website geen sitemap heeft, raden wij aan om er een te maken. Dit kan worden gedaan door de websitebouwer, maar er zijn ook online tools beschikbaar, zoals XML-Sitemaps. Hiermee kun je tot 500 pagina's gratis scrapen.
Voeg de URL van jouw website toe en klik op 'Start'. De tool zal nu jouw website scrapen. Na het voltooien hiervan, klik je op 'View sitemap details' en vervolgens op 'View full XML sitemap'. De geopende URL voeg je toe aan de Web Scraper, tot en met "/sitemap.xml" (verwijder "?view=1").
Let op: de sitemap die met deze tool wordt gemaakt, blijft slechts één week geldig. Nadat de sitemap een week oud is, blijft de toegevoegde kennis in jouw chatbot wel behouden, maar opnieuw scrapen kan dan niet meer. Als je na een week opnieuw wilt scrapen, herhaal dan het proces zoals hierboven beschreven en vervang de 'oude' sitemap in de Web Scraper.
Indien de resultaten van de Web Scraper niet zijn zoals gewenst, neem dan gerust contact op met support via support@watermelon.ai. Wij helpen je graag verder!