In dit artikel wordt uitgelegd wat een Web Scraper is en hoe het scrapen van je website precies werkt.
Wat is een web scraper?
Stel je voor dat de web scraper een soort internetrobot is die informatie van websites verzamelt. Hij is als een slimme hulp die voor jou alle belangrijke gegevens van een website opzoekt en verzamelt. Dit doet hij door speciale verzoeken (requests) naar de websites te sturen en te vragen om informatie te geven. Dit klinkt misschien wat technisch, maar het helpt je om gegevens te krijgen die je nodig hebt, zonder dat je alles handmatig hoeft te doen.
Hoe werkt de Web Scraper in Pulse?
In Pulse werkt de Web Scraper op een slimme en vriendelijke manier. Hij stuurt verzoeken naar de websites om informatie te krijgen, maar doet dat met beleid. De scraper stuurt bijvoorbeeld 3 verzoeken per seconde. Dit is als het versturen van 3 vragen aan de website in één seconde. Maar hij neemt daarna een "back-off" van 60 seconden. De back-off is een soort pauze voor de scraper. Na elke 3 verzoeken per seconde, wacht hij 60 seconden voordat hij weer nieuwe verzoeken stuurt. Dit zorgt ervoor dat de scraper niet te veel verzoeken tegelijkertijd stuurt, want dat kan een website overbelasten. Het geeft de websites wat ademruimte, zodat de website normaal kan blijven functioneren.
De scraper blijft doorgaan met het langsgaan van alle webadressen (URL's) van de website totdat hij ze allemaal heeft bezocht en alle informatie heeft verzameld. Als hij eenmaal alle URL's heeft bezocht en verzoeken heeft gestuurd, stopt hij met het sturen van verzoeken. Dit gebeurt totdat je aangeeft dat je het scrapen opnieuw wilt starten.
In dit artikel lees je hoe je de Web Scraper in Pulse gebruikt.
Hoe stuurt de scraper de verzoeken naar websites?
De scraper is niet zomaar een gewone bezoeker, hij heeft een paar slimme trucjes om niet op te vallen. De verzoeken die de scraper stuurt, komen niet allemaal vanaf één adres, dat is het IP-adres. Het IP-adres is als je huisadres op het internet. Net zoals een brief naar je huisadres wordt gestuurd, komen de meeste internetverzoeken vanaf één vast IP-adres.
Maar de scraper is wat slimmer. Hij gaat langs meerdere proxies voordat hij verzoeken naar websites stuurt. Een proxy is een soort tussenpersoon die de verzoeken namens de scraper doorstuurt. Hierdoor lijkt het voor de website alsof de verzoeken van verschillende adressen komen, namelijk de adressen van de proxies. Dit maakt het moeilijker om te achterhalen wie de echte afzender is en helpt om wat anoniemer te zijn.
En dan hebben we nog iets dat de "user agent" wordt genoemd. Een user agent is als een vermomming voor de internetbrowser van de scraper. Normaal gesproken vertelt een browser aan de website welke browser het is, bijvoorbeeld Chrome of Firefox. Maar de scraper vermomt zichzelf door een "dynamische" user agent te gebruiken. Dit zegt tegen de website: "Hallo daar, ik ben gewoon een gewone bezoeker die rondkijkt!" Hierdoor lijkt het voor de website alsof de scraper een gewone bezoeker is en niet een speciale scraper.