Wat is de Web Crawler en hoe werkt het?

In dit artikel leer je over de Web Crawler in Pulse, wat het doet en hoe het de kennis van je chatbot kan verbeteren door de nieuwste informatie van je website te verzamelen.

Let op: De Web Crawler is alleen beschikbaar in de Premium, Business en Enterprise pakketten.

Wat is de Web Crawler?

De Web Crawler is een tool die inhoud van je website verzamelt en integreert in de kennis van je chatbot. Dit betekent dat je chatbot leert van de meest recente informatie op je website. Of het nu gaat om productpagina’s, blogs of veelgestelde vragen (FAQs), de Web Crawler helpt je chatbot nauwkeurig en responsief te blijven met de meest actuele data.

Je kunt de Web Crawler gebruiken om URLs van je website op te halen en deze vervolgens te crawlen om de inhoud te verzamelen. Afhankelijk van je abonnement zijn er limieten aan het aantal URLs dat je kunt ophalen en het aantal crawls dat je per maand kunt uitvoeren. Daar lees je meer over onderaan dit artikel.

Hoe werkt de Web Crawler?

De Web Crawler haalt op verschillende manieren URLs van je website op:

  • Je kunt je sitemap uploaden om de meest volledige resultaten te verkrijgen.

  • Je kunt ook een rootdomein toevoegen, waarna de Web Crawler zal proberen alle URLs op de site te vinden.

  • Je kunt daarnaast handmatig individuele URLs toevoegen.

Zodra de URLs zijn opgehaald, kun je ervoor kiezen of je de inhoud van specifieke URLs wilt opnemen in de kennis van de chatbot of bepaalde URLs wilt uitsluiten. De Web Crawler crawlt vervolgens de geselecteerde URLs en verzamelt relevante inhoud die je chatbot zal gebruiken om vragen te beantwoorden.

In dit artikel lees je hoe je de Web Crawler kunt instellen.

Hoe verstuurt de Web Crawler verzoeken naar websites?

De Web Crawler is geen gewone bezoeker; het heeft een paar slimme trucs om onopgemerkt te blijven. De verzoeken die de crawler verstuurt, komen niet allemaal van één enkel adres, namelijk het IP-adres. Een IP-adres is als je huisadres op het internet. Net zoals een brief naar je huisadres wordt gestuurd, komen de meeste internetverzoeken van één vast IP-adres.

Maar de Web Crawler is slimmer. Het verstuurt verzoeken via meerdere proxies voordat deze naar websites worden gestuurd. Een proxy fungeert als tussenpersoon die de verzoeken doorstuurt namens de crawler. Hierdoor lijkt het alsof de verzoeken van verschillende adressen komen, namelijk de adressen van de proxies. Dit maakt het moeilijker om de echte afzender te achterhalen en helpt om anoniem te blijven.

Daarnaast is er iets dat de “user agent” wordt genoemd. Een user agent is als een vermomming voor de internetbrowser van de crawler. Normaal gesproken vertelt een browser aan een website welke browser het is, zoals Chrome of Firefox. Maar de Web Crawler vermomt zichzelf door gebruik te maken van een dynamische user agent. Het vertelt de website: “Hallo, ik ben gewoon een normale bezoeker!” Hierdoor denkt de website dat de crawler een gewone bezoeker is en geen speciale crawler.

Waar moet je rekening mee houden bij het crawlen?

Wanneer je gebruikmaakt van de Web Crawler, is het belangrijk om de belasting op de servers van de te crawlen website te minimaliseren. Het verzenden van te veel verzoeken in een korte tijd kan de server overbelasten en leiden tot timeouts of fouten, zoals een 504-statuscode. Dit gebeurt vaak bij websites met beperkte servercapaciteit (CPU, geheugen, of bandbreedte). Daarnaast kunnen grote sitemaps met veel URLs, als deze zonder limiet worden gecrawld, snel de server belasten.

Om dit te voorkomen:

  • Beperk het aantal gelijktijdige verzoeken door niet alle URL's tegelijkertijd te crawlen, maar per groep URL's te crawlen. Dit doe je door het selecteren van een X aantal URL's en vervolgens op 'crawlen' te klikken. 
  • Controleer of de server van de te crawlen website de belasting aankan.
  • Houd rekening met eventuele beperkingen in de robots.txt van de website.

Het controleren van de servercapaciteit en het beperken van het aantal gelijktijdige verzoeken voorkomt technische problemen op de website. 


Hoeveel URLs en crawls kan ik gebruiken?

Elke abonnementsvorm heeft een limiet voor het aantal URLs dat je kunt ophalen en het aantal crawls dat je per maand kunt uitvoeren. Je kan hier een overzicht van vinden op onze prijzenpagina en hieronder:

  • Premium plan: 10.000 crawls per maand
  • Business plan: 25.000 crawls per maand
  • Enterprise plan: Aangepaste limieten op basis van je specifieke behoeften. Neem contact op met ons supportteam voor op maat gemaakte opties.

Eén crawl staat gelijk aan het crawlen van één URL.

Als je de URL- of crawl-limiet voor de maand bereikt, ontvang je een melding en kun je je pakket upgraden of wachten tot de volgende factureringscyclus.

Wanneer je meer URL's ophaalt dan het limiet, zie je het aantal URL's in het rood verschijnen. Je kunt er vervolgens voor kiezen een deel van de opgehaalde URL's te verwijderen, voordat je start met crawlen.