Hoe gebruik je de Web Crawler?

Wil je webpagina’s toevoegen aan de kennis van je AI Agent? In dit artikel leer je hoe je dit eenvoudig kunt doen met behulp van de Web Crawler.

Let op! De Web Crawler is alleen beschikbaar in de Premium, Business en Enterprise pakketten.

In dit artikel leer je meer over wat een Web Crawler precies is en hoe het technisch werkt.

Naast het toevoegen van informatie via instructies, AI-zoekopdrachten of de Document Scraper, wil je misschien ook informatie van je website aan je AI Agent toevoegen. De Web Crawler doet precies dat. Het haalt eerst alle URLs op die je wilt crawlen, en crawlt vervolgens de pagina’s om de inhoud toe te voegen aan de kennis van je AI Agent. Op deze manier hoef je de data niet handmatig toe te voegen, wat het onderhoud van je AI Agent vereenvoudigt.

Bekijk ook deze video:

1. De Web Crawler openen

Om te beginnen, open je je AI Agent en ga je naar Bronnen om de Web Crawler te vinden.

2. Je website toevoegen

Binnen de Web Crawler kun je eenvoudig de URLs van je website toevoegen en beheren. Er zijn drie manieren om URLs toe te voegen. Je kunt deze opties ook combineren.

Hele sitemap: Deze optie raden wij aan omdat dit je de meest complete lijst met URLs geeft. Lees in dit artikel hoe je een goede sitemap maakt.

Voeg hier de URL van de sitemap toe, zonder '/' erachter. Dus bijvoorbeeld wel: https://website.nl/sitemap.xml maar niet https://website.nl/sitemap.xml/

URLs ophalen via het rootdomein: Hiermee wordt geprobeerd alle URLs op de site te vinden.
Handmatig specifieke URLs toevoegen: Deze optie gebruik je als je alleen informatie van specifieke pagina’s van je site wilt toevoegen, maar niet de hele website.

Nadat je de URL in de balk hebt ingevoerd, klik je op Links ophalen. De Web Crawler toont de opgehaalde URLs in een tabel, waarbij ook de datum wordt weergegeven waarop de URL is toegevoegd. Afhankelijk van het aantal URLs kan het ophalen enige tijd duren.

Het ophalen van de URLs is de eerste stap. Nadat de URLs zijn opgehaald, kun je per URL beslissen of je:

URLs wilt opnemen of uitsluiten voor crawling (dit bepaalt of de inhoud van de pagina wordt toegevoegd aan de kennis van de AI Agent).
Kiezen of de AI Agent de URL gebruikt of niet in de antwoorden (dit bepaalt of de AI Agent de URL deelt tijdens gesprekken).

Zodra je jouw keuzes hebt gemaakt, kun je beginnen met crawlen:

Wanneer jouw website JavaScript bevat, is het belangrijk het schuifje voor 'Render JavaScript' aan te zetten. Houdt er rekening mee dat JavaScript meer tijd in beslag neem om te crawlen, omdat het extra verwerking vereist om de inhoud weer te geven.
Alle opgenomen URLs tegelijk crawlen: Klik op Begin met crawlen in de rechterbovenhoek om alle geselecteerde URLs in één keer te crawlen.
Specifieke URLs crawlen: Selecteer de gewenste URLs en klik vervolgens op Crawl link in het menu om alleen deze specifieke links te crawlen.

Screenshot 2025-08-18 at 13.51.27

Let op! Als het crawlen van een rootdomein of sitemap zeer snel wordt voltooid (binnen enkele seconden), kan dit erop wijzen dat slechts een klein deel van de website is gecrawld. Dit kan gebeuren als de website technisch moeilijk te crawlen is of niet volledig toegankelijk is. Neem in dat geval gerust contact op met ons supportteam voor hulp.

De Web Crawler kan geen informatie achter knoppen of bijvoorbeeld een dropdownmenu ophalen. Deze informatie moet je handmatig toevoegen in de Instructies van je AI Agent.

Crawl statussen

De URL's in de lijst kunnen verschillende statussen hebben. Hieronder een overzicht van de verschillende statussen:

Status	Betekenis
Gecrawled	De URL is toegevoegd aan de kennis van de AI Agent
Niet gecrawled	De URL is (nog) niet gecrawled
In wachtrij*	De URL staat nog in de wachtrij om gecrawled te worden
Uitgesloten	De URL is uitgesloten van crawlen

Hoe lang duurt het crawlen?

Het crawlen van een website kan tot 24 uur duren, afhankelijk van de structuur van de website en hoe gemakkelijk deze te crawlen is. Tijdens deze periode probeert de Web Crawler tot 50 keer om URL’s die niet direct toegankelijk zijn alsnog te crawlen. Terwijl dit gebeurt, wordt de status van de URL weergegeven als In wachtrij. Als een URL na 24 uur nog steeds niet succesvol gecrawld is, zal het crawlen van die URL falen.

Het kan voorkomen dat de crawl-status enige tijd blijft hangen tussen 90% en 100%. Dit betekent dat de Web Crawler nog bezig is met het herhaaldelijk proberen te bereiken van een klein aantal overgebleven URL’s. Deze URL’s kunnen tijdelijk onbereikbaar zijn of vereisen extra pogingen om succesvol gecrawld te worden.

Je hoeft het scherm niet open te laten staan tijdens het crawlen. Het proces gaat automatisch door, zelfs als je naar een andere pagina navigeert of uitlogt uit Watermelon.

Wil je het proces niet langer laten doorgaan? Dan kun je ervoor kiezen om de crawl handmatig te annuleren. De kennis van alle URL’s die tot op dat moment wél succesvol gecrawld zijn, is dan al toegevoegd aan de kennis van de AI Agent. Je kunt dus direct aan de slag met de bestaande informatie.

Zodra de crawl voltooid of geannuleerd is, ontvang je een e-mail met een overzicht van de resultaten, inclusief het aantal URL’s dat niet succesvol is gecrawld.

In dit artikel vind je meer uitleg over waarom een URL mogelijk niet gecrawld kan worden.

3. URLs opnieuw crawlen

Wanneer de inhoud op je website verandert, kun je de kennis van je AI Agent eenvoudig bijwerken door op Begin met crawlen (voor alle opgenomen URLs) of Crawl link (voor geselecteerde URLs) te klikken. Dit zorgt ervoor dat nieuwe of bijgewerkte inhoud wordt geïntegreerd in de kennisbasis van je AI Agent. Houd rekening met je crawl-limieten wanneer je ervoor kiest om alle URLs te crawlen.

4. Een gecrawlde URL verwijderen

Als je een specifieke URL uit de Web Crawler wilt verwijderen, kun je via de 3 puntjes rechts naar de URL kiezen voor Verwijderen. Je kunt ook de multi-select optie gebruiken en vervolgens in de balk boven de URLs op Verwijderen klikken om meerdere URLs tegelijk te verwijderen.

Let op! Het verwijderen van een URL zal ook alle kennis die de AI Agent van die specifieke URL heeft verkregen, wissen.

5. De AI Agent testen met websitekennis

Zodra het crawlen is voltooid, kun je je AI Agent testen met de nieuw verkregen kennis in de Interactieve tester. Dit stelt je in staat om te zien hoe de AI Agent de van je website verzamelde inhoud gebruikt tijdens gesprekken.

Als de informatie op je website conflicteert met handmatig toegevoegde instructies in je AI Agent, kan de AI Agent de kennis door elkaar gebruiken. Dit kan ertoe leiden dat de AI Agent verschillende antwoorden geeft op dezelfde vraag, afhankelijk van welke kennisbron wordt gebruikt.

Overig

Link kopiëren: Gebruik de knop links van de URL om deze eenvoudig te kopiëren. Dit is handig wanneer je de URL in je browser wilt controleren om te bepalen of deze moet worden opgenomen in de kennis van de AI Agent.
Hoveren over lange URL's: Wanneer je met je muis over een lange URL beweegt, wordt de volledige URL weergegeven.