Was ist der Web-Crawler und wie funktioniert er?

In diesem Artikel erfahren Sie, was der Web-Crawler ist, was er macht und wie er das Wissen Ihres AI Agent verbessert, indem er Informationen von Ihrer Website sammelt.

Hinweis: Der Web-Crawler ist nur in den Premium, Business und Enterprise Paketen verfügbar.

Was ist der Web-Crawler?

Der Web-Crawler ist ein Tool, das Inhalte Ihrer Website sammelt und in das Wissen Ihres AI Agent integriert. Das bedeutet, dass Ihr AI Agent von den neuesten Informationen auf Ihrer Website lernt – egal ob es sich um Produktseiten, Blogs oder häufig gestellte Fragen (FAQs) handelt. Der Web-Crawler sorgt dafür, dass Ihr AI Agent stets aktuell, präzise und reaktionsschnell bleibt.

Sie können den Web-Crawler verwenden, um URLs von Ihrer Website abzurufen und deren Inhalte zu analysieren. Abhängig von Ihrem Abonnement gibt es Begrenzungen für die Anzahl der URLs, die Sie abrufen, und die Anzahl der Crawls, die Sie pro Monat durchführen können. Weitere Informationen dazu finden Sie am Ende dieses Artikels.

Wie funktioniert der Web-Crawler?

Der Web-Crawler sammelt URLs Ihrer Website auf folgende Weise:

  • Sie können Ihre Sitemap hochladen, um die vollständigsten Ergebnisse zu erhalten.

  • Sie können ein Root-Domain eingeben, woraufhin der Web-Crawler versucht, alle URLs auf der Seite zu finden.

  • Sie können einzelne URLs manuell hinzufügen.

Sobald die URLs gesammelt sind, können Sie entscheiden, ob Sie bestimmte URLs in das Wissen des AI Agent aufnehmen oder ausschließen möchten. Der Web-Crawler durchsucht anschließend die ausgewählten URLs und sammelt relevante Inhalte, die Ihr AI Agent zur Beantwortung von Fragen verwendet.

In diesem Artikel erfahren Sie, wie Sie den Web-Crawler einrichten.

Wie sendet der Web-Crawler Anfragen an Websites?

Der Web-Crawler ist kein gewöhnlicher Besucher – er verwendet intelligente Methoden, um anonym zu bleiben. Die Anfragen des Crawlers stammen nicht alle von einer einzigen IP-Adresse. Eine IP-Adresse ist vergleichbar mit einer Hausadresse im Internet. Die meisten Internetanfragen kommen von einem festen IP-Adresse.

Der Web-Crawler funktioniert anders: Er sendet Anfragen über verschiedene Proxies, bevor sie die Zielwebsite erreichen. Ein Proxy fungiert dabei als Vermittler, der die Anfrage im Namen des Crawlers weiterleitet. Dadurch erscheinen die Anfragen so, als kämen sie von unterschiedlichen Adressen – den Proxy-Adressen. Das macht es schwerer, den wahren Absender zu erkennen, und erhöht die Anonymität.

Zusätzlich verwendet der Web-Crawler eine sogenannte User-Agent-Verschleierung. Ein User-Agent teilt der Website mit, welcher Browser verwendet wird (z. B. Chrome oder Firefox). Der Web-Crawler gibt sich mithilfe eines dynamischen User-Agents als normaler Besucher aus. Dadurch erscheint er nicht als automatisierter Crawler, sondern als regulärer Nutzer.

Worauf sollten Sie beim Crawlen achten?

Wenn Sie den Web-Crawler verwenden, ist es wichtig, die Belastung für den Server der Zielwebsite zu minimieren. Zu viele Anfragen in kurzer Zeit können den Server überlasten und zu Fehlern wie einem 504-Status führen. Dies ist vor allem bei Websites mit begrenzter Serverkapazität (CPU, Arbeitsspeicher, Bandbreite) der Fall. Auch große Sitemaps mit vielen URLs können eine zu hohe Last verursachen, wenn sie ohne Einschränkung gecrawlt werden.

Tipps zur Vermeidung von Problemen:

  • Begrenzen Sie die Anzahl gleichzeitiger Anfragen, indem Sie nicht alle URLs auf einmal crawlen, sondern in Gruppen. Wählen Sie dazu eine bestimmte Anzahl von URLs aus und klicken Sie auf „Crawlen“.

  • Prüfen Sie, ob der Server der Zielwebsite die Belastung aushält.

  • Beachten Sie mögliche Einschränkungen in der robots.txt der Website.

Durch das Überwachen der Serverkapazität und das Begrenzen gleichzeitiger Anfragen vermeiden Sie technische Probleme.

Wie viele URLs und Crawls kann ich nutzen?

Jedes Abonnement hat ein Limit für die Anzahl an URLs und Crawls pro Monat. Eine Übersicht finden Sie auf unserer Preisseite sowie unten:

  • Premium-Paket: 10.000 Crawls pro Monat

  • Business-Paket: 25.000 Crawls pro Monat

  • Enterprise-Paket: Anpassbare Limits je nach Bedarf – kontaktieren Sie unser Supportteam für individuelle Optionen

Ein Crawl entspricht dem Crawlen einer einzelnen URL.

Wenn Sie das monatliche Limit für URLs oder Crawls erreichen, erhalten Sie eine Benachrichtigung. Sie können dann entweder Ihr Paket upgraden oder bis zum nächsten Abrechnungszeitraum warten.

Wenn Sie mehr URLs abrufen als erlaubt, werden diese in Rot dargestellt. Sie können dann entscheiden, einen Teil der URLs zu löschen, bevor Sie mit dem Crawlen beginnen.