robots.txt-Datei: Sie muss nicht mehr in der Stammdomäne platziert werden!

robots.txt-Datei: Sie muss nicht mehr in der Stammdomäne platziert werden!
robots.txt-Datei: Sie muss nicht mehr in der Stammdomäne platziert werden!
-

Google stellt eine seit langem bestehende Annahme über den Speicherort von robots.txt-Dateien in Frage (die dieses Jahr ihr 30-jähriges Jubiläum feiert). Google-Analyst Gary Illyes enthüllte, dass diese Dateien auf CDNs zentralisiert werden können, was den Site-Administratoren neue Flexibilität bietet.

Was Sie beachten müssen:

  • Die robots.txt-Datei muss sich nicht in der Stammdomäne befinden.
  • Robots.txt-Dateien können auf CDNs gehostet werden.
  • Diese Methode ermöglicht eine zentralisierte und flexiblere Verwaltung von Crawl-Anweisungen.
  • Der RFC9309-Standard ermöglicht es Crawlern, Weiterleitungen zur zentralen Datei zu folgen.

Robots.txt: neue Flexibilität laut Google

Jahrelang wurde akzeptiert, dass sich die robots.txt-Datei im Verzeichnis befinden sollte Domänenstamm (z. B. site.com/robots.txt). Gary Illyes von Google gab jedoch auf LinkedIn an, dass diese Praxis nicht verpflichtend sei, und enthüllte damit einen wenig bekannten Aspekt des Robot Exclusion Protocol (REP).

Laut Illyes ist das möglich Zentralisieren Sie robots.txt-Dateien auf CDNs (Content Delivery Networks), während das Crawlen für die Hauptseite gesteuert wird. Beispielsweise könnte eine Site zwei robots.txt-Dateien haben: eine unter https://cdn.example.com/robots.txt und eine weitere unter https://www.example.com/robots.txt. Diese Methode würde eine Aufrechterhaltung ermöglichen eine eindeutige und vollständige robots.txt-Datei im CDNund leitet Anfragen von der Hauptdomäne an diese zentralisierte Datei um.

„Sie haben wahrscheinlich schon gehört, dass Ihre robots.txt-Datei unter example.com/robots.txt liegen MUSS. Das Robot Exclusion Protocol wird dieses Jahr 30 Jahre alt und ich möchte Ihnen sagen, dass das, was Sie im Internet gehört haben, nicht ganz wahr ist (schockierend).

Sie haben ein CDN und Ihre Hauptseite. Sie haben zwei robots.txt-Dateien, eine unter https∶//cdn.example.com/robots.txt und eine unter https∶//www.example.com/robots.txt . Sie können beispielsweise in Ihrem CDN nur eine zentrale robots.txt-Datei mit allen Regeln haben, die Ihnen helfen kann, den Überblick über alle Regeln zu behalten, die Sie verwalten müssen. Alles, was Sie tun müssen, ist, https∶//www.example.com/robots.txt auf https∶//cdn.example.com/robots.txt umzuleiten, und Crawler, die RFC9309 entsprechen, verwenden einfach das Umleitungsziel als robotstxt-Datei von https∶//www.example.com/.

Jetzt frage ich mich, ob die analysierte robots.txt-Datei wirklich robots.txt heißen muss.“

Die Vorteile dieses Ansatzes

Zentralisierte Verwaltung

Durch die Zentralisierung der robots.txt-Regeln an einem einzigen Ort können Crawling-Richtlinien für die gesamte Webpräsenz eines Unternehmens verwaltet und aktualisiert werden.

Bessere Konsistenz

Eine einzige Quelle für Regeln in der robots.txt-Datei verringert das Risiko widersprüchlicher Anweisungen zwischen der Hauptseite und dem CDN.

Erhöhte Flexibilität

Diese Methode bietet anpassungsfähigere Konfigurationen, insbesondere für Websites mit komplexen Architekturen oder mit mehreren Subdomains und CDNs.

>> Erfahren Sie mehr: Die robots.txt-Datei, wie kann man sie für SEO optimieren?

Warum diese Methode verwenden?

Ein vereinfachter Ansatz zur Verwaltung von robots.txt-Dateien kann die Site-Verwaltung verbessern. Indem sie den Ratschlägen von Gary Illyes folgen, können Site-Administratoren das optimieren Zentralisierung und Aktualisierung von Crawling-Anweisungenwas eine bessere Leistung zwischen den verschiedenen Segmenten ihrer Website garantiert.

-

PREV Werden in den USA Atomkraftwerke bald der KI zur Verfügung gestellt?
NEXT Börse Zürich: Eröffnung im Minus, der gute Roche wiegt