In diesem Artikel erklären wir, warum eine URL vom Web-Crawler möglicherweise nicht gecrawlt werden kann.
Das Scheitern beim Crawlen einer URL kann verschiedene Ursachen haben – von technischen Einschränkungen bis hin zu Einstellungen auf der Ziel-Website. Nachfolgend finden Sie die häufigsten Gründe sowie mögliche Lösungen.
Das Scheitern beim Crawlen einer URL kann verschiedene Ursachen haben – von technischen Einschränkungen bis hin zu Einstellungen auf der Ziel-Website. Nachfolgend finden Sie die häufigsten Gründe sowie mögliche Lösungen.
Was bedeutet „nicht gecrawlt werden können“?
Wenn eine URL nicht gecrawlt werden kann, bedeutet das, dass der Web-Crawler keinen Zugriff auf den Inhalt dieser Seite erhält. Dadurch kann die betreffende Information nicht in das Wissen Ihres AI Agent aufgenommen werden.
Es gibt mehrere Gründe, warum eine URL unzugänglich ist – meist liegt es an Website-Einstellungen oder technischen Problemen.
Häufige Gründe, warum eine URL nicht gecrawlt werden kann
1. Einschränkungen durch robots.txt
Manche Websites besitzen eine Datei namens robots.txt, die Crawlern Anweisungen gibt, welche Bereiche der Website zugänglich sind.
Lösung:
Überprüfen Sie die Datei robots.txt, indem Sie z. B. www.website.com/robots.txt
in Ihren Browser eingeben. Prüfen Sie, ob die betroffene URL dort ausgeschlossen wird.
2. Falsche URL-Eingabe
Eine URL kann nicht gecrawlt werden, wenn sie falsch eingegeben wurde – z. B. Tippfehler, fehlendes Subdomain oder falsches Protokoll (http statt https).
Lösung:
Stellen Sie sicher, dass die URL korrekt eingegeben wurde. Öffnen Sie sie in einem Browser, um zu prüfen, ob die Seite erreichbar ist.
3. IP- oder Zugriffsrestriktionen
Websites können IP-Adressen blockieren oder den Zugriff geografisch einschränken – oft als Maßnahme gegen Scraping.
Lösung:
Heben Sie diese Einschränkungen vorübergehend auf, damit der Crawl durchgeführt werden kann.
4. CAPTCHA oder Anti-Scraping-Maßnahmen
Einige Websites nutzen Schutzmechanismen wie CAPTCHAs, um Bots zu blockieren. Dadurch wird der Zugriff durch den Web-Crawler verhindert.
Lösung:
Wenn eine Website CAPTCHAs verwendet, ist ein automatischer Crawl leider nicht möglich. Fügen Sie die Inhalte in diesem Fall manuell in den AI Agent ein oder deaktivieren Sie die Schutzmaßnahmen vorübergehend.
5. Serverfehler der Website
Websites können vorübergehend nicht erreichbar sein, z. B. durch:
-
404 – Nicht gefunden: Die Seite existiert nicht (mehr).
-
500 – Interner Serverfehler: Die Website kann die Anfrage nicht verarbeiten.
-
504 – Timeout: Die Antwort des Servers dauert zu lange.
Lösung:
-
Öffnen Sie die URL im Browser, um die Erreichbarkeit zu prüfen.
-
Versuchen Sie es zu einem späteren Zeitpunkt erneut – temporäre Serverprobleme beheben sich oft selbst.
6. Begrenzungen auf dem Server der Website
Wenn ein Server zu viele Anfragen in kurzer Zeit erhält, kann er überlastet werden und den Crawler blockieren.
Lösung:
-
Reduzieren Sie die Anzahl gleichzeitiger Crawls in Agents.
-
Crawlen Sie nicht alle URLs gleichzeitig, sondern gruppenweise.
Hilfe benötigt?
Haben Sie weiterhin Probleme beim Crawlen einer URL?
Kontaktieren Sie unser Supportteam unter support@watermelon.ai – wir helfen Ihnen gerne weiter!