Waarom kan een URL niet gecrawld worden?

In dit artikel leggen we uit waarom een URL niet gecrawld kan worden in de Web Crawler in Pulse.

Het niet kunnen crawlen van een URL kan verschillende oorzaken hebben, variërend van technische beperkingen tot instellingen van de te crawlen website. Hieronder beschrijven we de meest voorkomende oorzaken en hoe je deze kunt oplossen.


Wat betekent “niet gecrawld kunnen worden”?

Als een URL niet gecrawld kan worden, betekent dit dat de Web Crawler geen toegang krijgt tot de inhoud van die URL. Hierdoor kan de informatie van de betreffende pagina niet worden toegevoegd aan de kennis van je chatbot.

Er kunnen meerdere redenen zijn waarom een URL niet toegankelijk is. Deze redenen hebben vaak te maken met instellingen op de website of technische problemen.


Veelvoorkomende redenen waarom een URL niet gecrawld kan worden

1. Robots.txt beperkingen

Sommige websites hebben een zogenoemd robots.txt-bestand. Dit bestand geeft instructies aan crawlers over welke delen van de website ze wel of niet mogen benaderen.

Oplossing:
Controleer het robots.txt-bestand van de website om te zien of de URL is uitgesloten van crawlers. Je kunt dit doen door de URL aan te vullen met /robots.txt (bijvoorbeeld www.website.com/robots.txt).

2. Verkeerde URL-invoer

Een URL kan niet worden gecrawld als deze verkeerd is ingevoerd, zoals een typefout, ontbrekend subdomein, of het gebruik van HTTP in plaats van HTTPS.

Oplossing:
Controleer of de URL correct is ingevoerd. Probeer de URL te openen in een browser om te zien of de pagina toegankelijk is.

3. IP- of toegangsbeperkingen

Websites kunnen IP-adressen blokkeren of toegang beperken op basis van geografische locatie. Dit gebeurt vaak als anti-scrapingmaatregel.

Oplossing:
Hef de blokkering of beperking (tijdelijk) op tijdens het crawlen. 

4. CAPTCHA of anti-scraping maatregelen

Sommige websites gebruiken geavanceerde technieken, zoals CAPTCHA's, om bots te blokkeren. Deze mechanismen kunnen ervoor zorgen dat de Web Crawler geen toegang krijgt.

Oplossing:
Als een website CAPTCHA's gebruikt, is het helaas niet mogelijk om de URL automatisch te crawlen. In dit geval kun je de content handmatig toevoegen aan de chatbot, of besluiten om de crawler tijdelijk toegang te geven door de anti-scraping maatregelen tijdelijk uit te schakelen. 

5. Serverfouten van de website

Websites kunnen tijdelijk niet beschikbaar zijn door serverproblemen. Veelvoorkomende fouten zijn:

  • 404 - Niet gevonden: De pagina bestaat niet meer of de URL is verkeerd.
  • 500 - Interne serverfout: De server heeft problemen met het verwerken van het verzoek.
  • 504 - Timeout: De server heeft te lang nodig om te reageren.

Oplossing:

  • Controleer of de website toegankelijk is door de URL in een browser te openen.
  • Wacht even en probeer het later opnieuw. Tijdelijke serverproblemen lossen vaak vanzelf op.

6. Beperkingen op de server van de website

Als een server te veel verzoeken ontvangt in korte tijd, kan deze overbelast raken en de crawler blokkeren.

Oplossing:

  • Beperk het aantal gelijktijdige crawls in Pulse. Kies ervoor om niet alle URLs tegelijkertijd te crawlen maar doe dit in delen.

Hulp nodig?

Als je nog steeds problemen hebt met het crawlen van een URL, neem dan contact op met ons supportteam via support@watermelon.ai. We helpen je graag verder!