Hoe gebruik je de Web Crawler?

Wil je webpagina’s toevoegen aan de kennis van je chatbot? In dit artikel leer je hoe je dit eenvoudig kunt doen met behulp van de Web Crawler.

Let op: De Web Crawler is alleen beschikbaar in de Premium, Business en Enterprise pakketten.

In dit artikel leer je meer over wat een Web Crawler precies is en hoe het technisch werkt.

Naast het toevoegen van informatie via instructies, AI-zoekopdrachten of de Document Scraper, wil je misschien ook informatie van je website aan je chatbot toevoegen. De Web Crawler doet precies dat. Het haalt eerst alle URLs op die je wilt crawlen, en crawlt vervolgens de pagina’s om de inhoud toe te voegen aan de kennis van je chatbot. Op deze manier hoef je de data niet handmatig toe te voegen, wat het onderhoud van je chatbot vereenvoudigt.

1. De Web Crawler openen

Om te beginnen, open je je chatbot in Pulse en ga je naar ‘Bronnen’ om de Web Crawler te vinden.

2. Je website toevoegen

Binnen de Web Crawler kun je eenvoudig de URLs van je website toevoegen en beheren. Er zijn drie manieren om URLs toe te voegen. Je kunt deze opties ook combineren.

  • Hele sitemap: Deze optie raden wij aan omdat dit je de meest complete lijst met URLs geeft. Lees in dit artikel hoe je een goede sitemap maakt.

Voeg hier de URL van de sitemap toe, zonder '/' erachter. Dus bijvoorbeeld wel: https://website.nl/sitemap.xml maar niet https://website.nl/sitemap.xml/

  • URLs ophalen via het rootdomein: Hiermee wordt geprobeerd alle URLs op de site te vinden.
  • Handmatig specifieke URLs toevoegen: Deze optie gebruik je als je alleen informatie van specifieke pagina’s van je site wilt toevoegen, maar niet de hele website.

Nadat je de URL in de balk hebt ingevoerd, klik je op “Links ophalen”. De Web Crawler toont de opgehaalde URLs in een tabel, waarbij ook de datum wordt weergegeven waarop de URL is toegevoegd. Afhankelijk van het aantal URLs kan het ophalen enige tijd duren.

Het ophalen van de URLs is de eerste stap. Nadat de URLs zijn opgehaald, kun je per URL beslissen of je:

  • URLs wilt opnemen of uitsluiten voor crawling (dit bepaalt of de inhoud van de pagina wordt toegevoegd aan de kennis van de chatbot).
  • Kiezen of de chatbot de URL gebruikt of niet in de antwoorden (dit bepaalt of de chatbot de URL deelt tijdens gesprekken).

Zodra je jouw keuzes hebt gemaakt, kun je beginnen met crawlen:

  • Alle opgenomen URLs tegelijk crawlen: Klik op "Begin met crawlen" in de rechterbovenhoek om alle geselecteerde URLs in één keer te crawlen.
  • Specifieke URLs crawlen: Selecteer de gewenste URLs en klik vervolgens op "Crawl link" in het menu om alleen deze specifieke links te crawlen.

Screenshot 2024-11-21 at 12.05.21

Let op: Als het crawlen van een rootdomein of sitemap zeer snel wordt voltooid (binnen enkele seconden), kan dit erop wijzen dat slechts een klein deel van de website is gecrawld. Dit kan gebeuren als de website technisch moeilijk te crawlen is of niet volledig toegankelijk is. Neem in dat geval gerust contact op met ons supportteam voor hulp.

De Web Crawler kan geen informatie achter knoppen of bijvoorbeeld een dropdownmenu ophalen. Deze informatie moet je handmatig toevoegen in de Instructies van je chatbot. 

Crawl statussen

De URL's in de lijst kunnen verschillende statussen hebben. Hieronder een overzicht van de verschillende statussen: 

Status Betekenis
Gecrawled De URL is toegevoegd aan de kennis van de chatbot
Niet gecrawled De URL is (nog) niet gecrawled
In wachtrij* De URL staat nog in de wachtrij om gecrawled te worden
Uitgesloten De URL is uitgesloten van crawlen

Hoe lang duur het crawlen?

Het crawlen van een website kan tot 24 uur duren, afhankelijk van de structuur van de website en hoe gemakkelijk deze te crawlen is. Tijdens deze periode probeert de Web Crawler tot 50 keer om URL's die niet direct toegankelijk zijn alsnog te crawlen. Terwijl dit gebeurt, wordt de status van de URL weergegeven als 'In wachtrij' (*). Als een URL na 24 uur nog steeds niet succesvol gecrawld is, zal het crawlen van die URL falen.

Je hoeft het scherm niet open te laten staan tijdens het crawlen. Het proces gaat door, zelfs als je naar een andere pagina navigeert of uitlogt uit Watermelon. Zodra de crawl voltooid is, ontvang je een e-mail met een overzicht van de resultaten, inclusief het aantal URL's dat niet succesvol is gecrawld.

In dit artikel vind je meer uitleg over waarom een URL mogelijk niet gecrawld kan worden.

3. URLs opnieuw crawlen

Wanneer de inhoud op je website verandert, kun je de kennis van je chatbot eenvoudig bijwerken door op ‘Begin met crawlen’ (voor alle opgenomen URLs) of 'Crawl link' (voor geselecteerde URLs) te klikken. Dit zorgt ervoor dat nieuwe of bijgewerkte inhoud wordt geïntegreerd in de kennisbasis van je chatbot. Houd rekening met je crawl-limieten wanneer je ervoor kiest om alle URLs te crawlen.

4. Een gecrawlde URL verwijderen

Als je een specifieke URL uit de Web Crawler wilt verwijderen, kun je via de 3 puntjes rechts naar de URL kiezen voor Verwijderen. Je kunt ook de multi-select optie gebruiken en vervolgens in de balk boven de URLs op Verwijderen klikken om meerdere URLs tegelijk te verwijderen.

Let op: Het verwijderen van een URL zal ook alle kennis die de chatbot van die specifieke URL heeft verkregen, wissen.

5. De chatbot testen met websitekennis

Zodra het crawlen is voltooid, kun je je chatbot testen met de nieuw verkregen kennis in de Interactieve tester. Dit stelt je in staat om te zien hoe de chatbot de van je website verzamelde inhoud gebruikt tijdens gesprekken.

Belangrijk: Als de informatie op je website conflicteert met handmatig toegevoegde instructies in je chatbot, kan de chatbot de kennis door elkaar gebruiken. Dit kan ertoe leiden dat de chatbot verschillende antwoorden geeft op dezelfde vraag, afhankelijk van welke kennisbron wordt gebruikt.

Overig

  • Link kopiëren: Gebruik de knop links van de URL om deze eenvoudig te kopiëren. Dit is handig wanneer je de URL in je browser wilt controleren om te bepalen of deze moet worden opgenomen in de kennis van de chatbot.Screenshot 2024-11-21 at 13.03.24
  • Hoveren over lange URL's: Wanneer je met je muis over een lange URL beweegt, wordt de volledige URL weergegeven.

Hulp nodig?

Als de resultaten van de Web Crawler niet zijn zoals verwacht, neem dan contact met ons op via support@watermelon.ai. Ons supportteam helpt je graag verder!