Möchten Sie Webseiten zur Wissensbasis Ihres AI Agent hinzufügen? In diesem Artikel erfahren Sie, wie Sie dies ganz einfach mit dem Web-Crawler erledigen können.
In diesem Artikel erfahren Sie auch mehr darüber, was ein Web-Crawler genau ist und wie er technisch funktioniert.
Hinweis: Der Web-Crawler ist nur in den Premium, Business und Enterprise Paketen verfügbar.
Neben der Informationszufuhr über Anleitungen, KI-Suche oder den Dokumentenscanner möchten Sie eventuell auch Inhalte von Ihrer Website hinzufügen. Der Web-Crawler erledigt genau das. Er ruft zunächst alle URLs ab, die Sie crawlen möchten, und durchsucht anschließend die Seiten, um deren Inhalte in das Wissen Ihres KI Agent aufzunehmen. Dadurch müssen Sie keine Daten manuell hinzufügen – was die Pflege erheblich vereinfacht.
Sehen Sie sich dieses Video an:
1. Den Web-Crawler öffnen
Öffnen Sie Ihren KI Agent und navigieren Sie zu Quellen, um den Web-Crawler zu finden.
2. Ihre Website hinzufügen
Im Web-Crawler können Sie ganz einfach URLs Ihrer Website hinzufügen und verwalten. Es gibt drei Möglichkeiten, URLs hinzuzufügen – diese können auch kombiniert werden:
-
Komplette Sitemap: Diese Option wird empfohlen, da sie die vollständigste URL-Liste bietet. Wie Sie eine gute Sitemap erstellen, erfahren Sie in diesem Artikel.
-
Root-Domain crawlen: Der Crawler versucht, alle URLs der Seite automatisch zu finden.
-
Einzelne URLs manuell hinzufügen: Diese Methode eignet sich, wenn Sie nur bestimmte Seiten aufnehmen möchten.
Nach der Eingabe klicken Sie auf Links abrufen. Die gefundenen URLs werden in einer Tabelle angezeigt – inklusive Hinzufügedatum. Je nach Umfang kann das Abrufen einige Zeit in Anspruch nehmen.
Sie können dann pro URL entscheiden, ob Sie:
-
Inhalte crawlen lassen (um sie ins Wissen aufzunehmen) oder ausschließen,
-
URLs in Antworten verwenden oder nicht (zur Anzeige in Gesprächen).
JavaScript-Inhalte: Aktivieren Sie den Schalter „JavaScript rendern“, wenn Ihre Website JavaScript nutzt. Dies verlängert den Crawl-Prozess aufgrund der erforderlichen zusätzlichen Verarbeitung.
Sie können nun mit dem Crawlen starten:
-
Alle aufgenommenen URLs gleichzeitig crawlen: Klicken Sie oben rechts auf Crawlen starten.
-
Einzelne URLs crawlen: Wählen Sie bestimmte URLs aus und klicken Sie auf Crawl Link, um nur diese zu crawlen.
Hinweis: Wird ein Crawl-Prozess ungewöhnlich schnell abgeschlossen, kann das auf Crawling-Probleme oder eingeschränkten Website-Zugang hindeuten. Kontaktieren Sie in diesem Fall unser Supportteam.
Der Web-Crawler kann keine Inhalte hinter Schaltflächen oder Dropdown-Menüs erfassen. Diese Informationen sollten Sie manuell in den Anleitungen hinzufügen.
Crawl-Status
Status | Bedeutung |
---|---|
Gecrawlt | Die URL wurde erfolgreich ins Wissen aufgenommen. |
Nicht gecrawlt | Die URL wurde (noch) nicht gecrawlt. |
In Warteschlange | Die URL wartet darauf, gecrawlt zu werden. |
Ausgeschlossen | Die URL wurde vom Crawlen ausgeschlossen. |
Wie lange dauert das Crawlen?
Das Crawlen einer Website kann bis zu 24 Stunden dauern, abhängig von der Struktur der Website und davon, wie einfach sie zu crawlen ist. Während dieses Zeitraums versucht der Web-Crawler bis zu 50 Mal, auf URLs zuzugreifen, die nicht sofort erreichbar sind. Währenddessen wird der Status der URL als „In der Warteschlange“ angezeigt. Wenn eine URL nach 24 Stunden immer noch nicht erfolgreich gecrawlt wurde, schlägt das Crawlen dieser URL fehl.
Manchmal scheint der Crawl-Status zwischen 90 % und 100 % hängen zu bleiben. Das bedeutet, dass der Web-Crawler weiterhin versucht, auf eine kleine Anzahl verbleibender URLs zuzugreifen. Diese URLs sind möglicherweise vorübergehend nicht verfügbar oder erfordern zusätzliche Versuche, um erfolgreich gecrawlt zu werden.
Es ist nicht notwendig, die Seite während des Crawl-Vorgangs geöffnet zu lassen. Der Prozess läuft automatisch weiter, selbst wenn Sie zu einer anderen Seite navigieren oder sich bei Watermelon abmelden.
Wenn Sie nicht möchten, dass der Crawl fortgesetzt wird, können Sie ihn manuell abbrechen. Das Fachwissen aller bis zu diesem Zeitpunkt erfolgreich gecrawlten URLs wird bereits zur Wissensdatenbank des KI-Agenten hinzugefügt. Das bedeutet, dass Sie sofort mit den verfügbaren Informationen arbeiten können.
Sobald der Crawl abgeschlossen oder abgebrochen wurde, erhalten Sie eine E-Mail mit einer Zusammenfassung der Ergebnisse, einschließlich der Anzahl der URLs, die nicht gecrawlt werden konnten.
Mehr Informationen über mögliche Crawl-Probleme finden Sie in diesem Artikel.
3. URLs erneut crawlen
Ändert sich der Websiteinhalt, können Sie über Crawlen starten (für alle URLs) oder Crawl Link (für ausgewählte) die Informationen aktualisieren. Beachten Sie dabei Ihre Crawl-Limits.
4. Eine gecrawlte URL entfernen
Über die drei Punkte rechts neben einer URL können Sie diese entfernen. Alternativ können Sie mehrere URLs auswählen und oben auf Löschen klicken.
Achtung: Dies entfernt auch alle dazugehörigen Inhalte aus dem Wissen des KI Agent.
5. Den KI Agent mit Websitewissen testen
Nach dem Crawlen können Sie den KI Agent im Interaktiven Tester mit dem neu gewonnenen Wissen testen. So prüfen Sie, wie die Inhalte verwendet werden.
Hinweis: Kommt es zu Widersprüchen zwischen Website-Inhalten und manuellen Anleitungen, kann dies zu abweichenden Antworten führen.
Sonstiges
-
Link kopieren: Über das Symbol links neben der URL.
-
Lange URLs anzeigen: Bewegen Sie den Mauszeiger über lange URLs, um sie vollständig zu sehen.
Hilfe benötigt?
Wenn die Ergebnisse des Web-Crawlers nicht wie erwartet ausfallen, kontaktieren Sie uns unter support@watermelon.KI – unser Supportteam hilft Ihnen gern weiter!