Möchten Sie Webseiten zur Wissensbasis Ihres AI Agent hinzufügen? In diesem Artikel erfahren Sie, wie Sie dies ganz einfach mit dem Web-Crawler erledigen können.
In diesem Artikel erfahren Sie auch mehr darüber, was ein Web-Crawler genau ist und wie er technisch funktioniert.
Hinweis: Der Web-Crawler ist nur in den Premium, Business und Enterprise Paketen verfügbar.
Neben der Informationszufuhr über Anleitungen, KI-Suche oder den Dokumentenscanner möchten Sie eventuell auch Inhalte von Ihrer Website hinzufügen. Der Web-Crawler erledigt genau das. Er ruft zunächst alle URLs ab, die Sie crawlen möchten, und durchsucht anschließend die Seiten, um deren Inhalte in das Wissen Ihres KI Agent aufzunehmen. Dadurch müssen Sie keine Daten manuell hinzufügen – was die Pflege erheblich vereinfacht.
Sehen Sie sich dieses Video an:
1. Den Web-Crawler öffnen
Öffnen Sie Ihren KI Agent und navigieren Sie zu Quellen, um den Web-Crawler zu finden.
2. Ihre Website hinzufügen
Im Web-Crawler können Sie ganz einfach URLs Ihrer Website hinzufügen und verwalten. Es gibt drei Möglichkeiten, URLs hinzuzufügen – diese können auch kombiniert werden:
-
Komplette Sitemap: Diese Option wird empfohlen, da sie die vollständigste URL-Liste bietet. Wie Sie eine gute Sitemap erstellen, erfahren Sie in diesem Artikel.
Fügen Sie hier die URL der Sitemap hinzu, ohne '/' am Ende. Also zum Beispiel: https://website.de/sitemap.xml, aber nicht https://website.de/sitemap.xml/
-
Root-Domain crawlen: Der Crawler versucht, alle URLs der Seite automatisch zu finden.
-
Einzelne URLs manuell hinzufügen: Diese Methode eignet sich, wenn Sie nur bestimmte Seiten aufnehmen möchten.
Nach der Eingabe klicken Sie auf Links abrufen. Die gefundenen URLs werden in einer Tabelle angezeigt – inklusive Hinzufügedatum. Je nach Umfang kann das Abrufen einige Zeit in Anspruch nehmen.
Das Abrufen der URLs ist der erste Schritt. Nachdem die URLs abgerufen wurden, können Sie für jede URL entscheiden, ob Sie:
- URLs für das Crawling aufnehmen oder ausschließen möchten (dies bestimmt, ob der Inhalt der Seite dem Wissen des KI Agenten hinzugefügt wird).
- Wählen möchten, ob der KI Agent die URL in Antworten verwendet oder nicht (dies bestimmt, ob der KI Agent die URL während Gesprächen teilt).
Sobald Sie Ihre Auswahl getroffen haben, können Sie mit dem Crawling beginnen:
- Wenn Ihre Website JavaScript enthält, ist es wichtig, den Schalter für JavaScript rendern zu aktivieren. Beachten Sie, dass JavaScript mehr Zeit für das Crawling benötigt, da zusätzliche Verarbeitung erforderlich ist, um den Inhalt darzustellen.
- Alle aufgenommenen URLs gleichzeitig crawlen: Klicken Sie oben rechts auf Beginnen Sie mit dem Crawlen, um alle ausgewählten URLs auf einmal zu crawlen.
- Spezifische URLs crawlen: Wählen Sie die gewünschten URLs aus und klicken Sie anschließend im Menü auf Link crawlen, um nur diese spezifischen Links zu crawlen.
Hinweis: Wird ein Crawl-Prozess ungewöhnlich schnell abgeschlossen, kann das auf Crawling-Probleme oder eingeschränkten Website-Zugang hindeuten. Kontaktieren Sie in diesem Fall unser Supportteam.
Der Web-Crawler kann keine Inhalte hinter Schaltflächen oder Dropdown-Menüs erfassen. Diese Informationen sollten Sie manuell in den Anleitungen hinzufügen.
Crawl-Status
Status | Bedeutung |
---|---|
Gecrawlt | Die URL wurde erfolgreich ins Wissen aufgenommen. |
Nicht gecrawlt | Die URL wurde (noch) nicht gecrawlt. |
In Warteschlange | Die URL wartet darauf, gecrawlt zu werden. |
Ausgeschlossen | Die URL wurde vom Crawlen ausgeschlossen. |
Wie lange dauert das Crawlen?
Das Crawlen einer Website kann bis zu 24 Stunden dauern, abhängig von der Struktur der Website und davon, wie einfach sie zu crawlen ist. Während dieses Zeitraums versucht der Web-Crawler bis zu 50 Mal, auf URLs zuzugreifen, die nicht sofort erreichbar sind. Währenddessen wird der Status der URL als In der Warteschlange angezeigt. Wenn eine URL nach 24 Stunden immer noch nicht erfolgreich gecrawlt wurde, schlägt das Crawlen dieser URL fehl.
Manchmal scheint der Crawl-Status zwischen 90 % und 100 % hängen zu bleiben. Das bedeutet, dass der Web-Crawler weiterhin versucht, auf eine kleine Anzahl verbleibender URLs zuzugreifen. Diese URLs sind möglicherweise vorübergehend nicht verfügbar oder erfordern zusätzliche Versuche, um erfolgreich gecrawlt zu werden.
Es ist nicht notwendig, die Seite während des Crawl-Vorgangs geöffnet zu lassen. Der Prozess läuft automatisch weiter, selbst wenn Sie zu einer anderen Seite navigieren oder sich bei Watermelon abmelden.
Wenn Sie nicht möchten, dass der Crawl fortgesetzt wird, können Sie ihn manuell abbrechen. Das Fachwissen aller bis zu diesem Zeitpunkt erfolgreich gecrawlten URLs wird bereits zur Wissensdatenbank des KI-Agenten hinzugefügt. Das bedeutet, dass Sie sofort mit den verfügbaren Informationen arbeiten können.
Sobald der Crawl abgeschlossen oder abgebrochen wurde, erhalten Sie eine E-Mail mit einer Zusammenfassung der Ergebnisse, einschließlich der Anzahl der URLs, die nicht gecrawlt werden konnten.
Mehr Informationen über mögliche Crawl-Probleme finden Sie in diesem Artikel.
3. URLs erneut crawlen
Wenn sich der Inhalt auf Ihrer Website ändert, können Sie das Wissen Ihres KI Agenten ganz einfach aktualisieren, indem Sie auf Beginnen Sie mit dem Crawlen (für alle aufgenommenen URLs) oder Link crawlen(für ausgewählte URLs) klicken. Dadurch wird sichergestellt, dass neue oder aktualisierte Inhalte in die Wissensdatenbank Ihres KI Agenten integriert werden. Berücksichtigen Sie Ihre Crawl-Limits, wenn Sie sich dafür entscheiden, alle URLs zu crawlen.
4. Eine gecrawlte URL entfernen
Über die drei Punkte rechts neben einer URL können Sie diese entfernen. Alternativ können Sie mehrere URLs auswählen und oben auf Löschen klicken.
Achtung: Dies entfernt auch alle dazugehörigen Inhalte aus dem Wissen des KI Agent.
5. Den KI Agent mit Websitewissen testen
Nach dem Crawlen können Sie den KI Agent im Interaktiven Tester mit dem neu gewonnenen Wissen testen. So prüfen Sie, wie die Inhalte verwendet werden.
Wenn die Informationen auf Ihrer Website mit manuell hinzugefügten Anleitungen in Ihrem KI Agenten in Konflikt stehen, kann der KI Agent das Wissen vermischen. Dies kann dazu führen, dass der KI Agent unterschiedliche Antworten auf dieselbe Frage gibt – je nachdem, welche Wissensquelle verwendet wird.
Sonstiges
-
Link kopieren: Über das Symbol links neben der URL.
-
Lange URLs anzeigen: Bewegen Sie den Mauszeiger über lange URLs, um sie vollständig zu sehen.