2 domains auf gleiche root robots.txt

Viewing 5 replies - 1 through 5 (of 5 total)

  • Hi @pakkriss,

    AIOSEO already supports robots.txt rules on both the network and individual site level for multisite installations.

    You can configure robots.txt rules in the Network Admin that need to be applied to every site in the network. You can also set rules for each site individually, but not through the Network Admin. For that you need to go to the relevant site and add them under Tools > Robots.txt.

    Just as an FYI, rules that are set on the network level take precedence and cannot be overridden for individual sites.

    Thanks for the feedback!

    If I visit a subsite …./wp-admin/admin.php?page=aioseo-tools#/robots-editor then there is no robots.txt editor available. Only the Preview “Open Robots.txt” button

    Below it says: This site is running in a sub-directory of your main site located at //domain.tld. Your robots.txt file should only appear in the root directory of that site.

    And BTW it’s not showing up the right domain.tld of site id 1 in this notice

    So how to enable the sub site robots.txt editor?

    @pakkriss what I mentioned earlier only works if you’re running a multisite installation in a subdomain configuration. I wasn’t aware yet that you are using subdirectories.

    If you’re adding sites as subdirectories, you can only have one robots.txt file (the one in the Network Admin) simply because web agents only look for robots.txt files at the root of a domain/web server.

    From a technical perspective, a multisite installation with subdirectories is considered one large website in that regard.

    One thing we can consider is adding a UI in these subdirectory child sites that lets you add rules just like you would on any other site, but instead the rules would be added directly to the robots.txt file at the root of your domain (Network Admin).

    Hi and thanks you for the feedback.

    It’s neither a subdirectory nor a sub-domain on the site IDs where we wanna manage the robots.txt.

    Maybe it was setup in subdirectory mode, but meanwhile different domains used by different site IDs.

    Maybe this is not implemented yet at your end, since the notification in the sub site ID is already wrong regarding the correct domain naming.

    Please let me know if you wanna check this via a login.

    Thanks for your support.

    @pakkriss Yeah, I’m having a hard time understanding how the site is set up, so might be a good idea to take a quick look. Do you mind reaching out to us at //aioseo.com/contact via our Basic Question form?

  • Viewing 5 replies - 1 through 5 (of 5 total)

    Auch wenn SEO-Spezialisten den größten Teil ihrer Arbeit in die Verbesserung der Sichtbarkeit von Seiten für die entsprechenden Keywords stecken, ist es in manchen Fällen erforderlich, bestimmte Seiten vor den Suchmaschinen zu verstecken.

    Lassen Sie uns ein wenig mehr über dieses Thema herausfinden.


    • Was ist eine robots.txt-Datei?
      • Robots.txt Beispiel
    • Was ist robots.txt in SEO?
    • Wo findest du die Datei robots.txt?
    • Wie man robots.txt bearbeitet
    • Robots.txt Anwendungsfälle
    • Robots.txt SEO Best Practices
      • Blockieren Sie keine Inhalte, die verfolgt werden sollen
      • Beachten Sie, dass die Bots den Links der durch robots.txt blockierten Seiten nicht folgen werden
      • Verwenden Sie keine robots.txt, um zu vermeiden, dass vertrauliche Daten auf der Ergebnisseite der Suchmaschine angezeigt werden
      • Denken Sie daran, dass einige Suchmaschinen mehrere Benutzeragenten haben
      • Die Suchmaschine zwischenspeichert den Inhalt der robots.txt, aktualisiert die zwischengespeicherten Daten aber normalerweise täglich
    • Einschränkungen der Robots.txt-Datei
      • Die Seiten werden weiterhin in den Suchergebnissen angezeigt
      • Enthält nur Direktiven
      • Dateigröße
      • Robot txt. wird 24 Stunden gecached
        • Probieren Sie es 14 Tage lang kostenlos aus.

    Was ist eine robots.txt-Datei?

    Robots.txt ist eine Datei, die die Bereiche einer Website enthält, die von Suchmaschinenrobotern nicht gecrawlt werden dürfen. Sie listet die URLs auf, von denen der Webmaster nicht möchte, dass Google oder eine andere Suchmaschine sie indiziert, so dass sie die ausgewählten Seiten nicht besuchen und verfolgen können. Dies geschieht durch das disallow-Tag in der robots.txt, das Sie weiter unten in den Beispielen sehen werden.

    Wenn ein Bot eine Website im Internet findet, prüft er als Erstes die robots.txt-Datei, um zu erfahren, was er erforschen darf und was er beim Crawlen ignorieren muss.

    Robots.txt Beispiel

    Um Ihnen ein Beispiel für robots.txt zu geben, ist dies die Syntax:

    User-agent: *

    # All bots - Old URLs

    Allow: /

    Disallow: /admin/*


    Was ist robots.txt in SEO?

    Diese Tags sind erforderlich, um die Google-Bots beim Auffinden einer neuen Seite zu führen. Sie sind notwendig, weil:

    • Sie tragen dazu bei, das Crawl-Budget zu optimieren, da der Spider nur die wirklich relevanten Seiten besucht und seine Zeit zum Crawlen einer Seite besser nutzt. Ein Beispiel für eine Seite, von der Sie nicht möchten, dass Google sie findet, ist eine "Dankeseite".
    • Die Datei Robots.txt ist eine gute Möglichkeit, die Indexierung von Seiten zu erzwingen, indem sie auf die Seiten hinweist.
    • Robots.txt-Dateien steuern den Zugriff von Crawlern auf bestimmte Bereiche Ihrer Website.
    • Sie können ganze Abschnitte einer Website schützen, da Sie für jede Stammdomäne separate robots.txt-Dateien erstellen können. Ein gutes Beispiel ist - Sie haben es erraten - natürlich die Seite mit den Zahlungsinformationen.
    • Sie können auch interne Suchergebnisseiten von der Anzeige in den SERPs ausschließen.
    • Robots.txt kann Dateien verbergen, die nicht indiziert werden sollen, wie z. B. PDFs oder bestimmte Bilder.

    Wo findest du die Datei robots.txt?

    Robots.txt-Dateien sind öffentlich. Du kannst einfach eine Root-Domain eingeben und /robots.txt am Ende der URL hinzufügen und du siehst die Datei....wenn es eine gibt!

    Warnung: Vermeiden Sie es, private Informationen in diese Datei aufzunehmen.

    Sie können die Datei im Stammverzeichnis Ihres Hostings finden und bearbeiten, indem Sie den Datei-Administrator oder das FTP der Website überprüfen.

    Wie man robots.txt bearbeitet

    Du kannst es selbst machen.

    • Erstellen oder bearbeiten Sie die Datei mit einem einfachen Texteditor
    •  Nennen Sie die Datei "robots.txt", ohne Variationen wie Großbuchstaben.

    Hier ist ein Beispiel, bei dem Sie die Website crawlen lassen möchten. Achten Sie darauf, wie wir den disallow-Tag in robots.txt verwenden.

    User-agent: *
    Disallow:

    Beachten Sie, dass wir "Disallow" leer gelassen haben, was bedeutet, dass es nichts gibt, was nicht gecrawlt werden darf.

    Wenn Sie eine Seite blockieren wollen, dann fügen Sie diese hinzu (am Beispiel der "Danke-Seite"):

    User-agent: *
    Disallow: /thank-you/

    • Verwenden Sie für jede Subdomain eine eigene robots.txt-Datei.
    • Legen Sie die Datei im Hauptverzeichnis der Website ab.
    • Sie können die robots.txt-Dateien mit den Google Webmaster Tools testen, bevor Sie sie in Ihr Stammverzeichnis hochladen.
    • Beachten Sie, dass FandangoSEO der ultimative robots.txt-Checker ist . Verwenden Sie es, um sie zu überwachen!

    Sie sehen, es ist gar nicht so schwierig, Ihre robots.txt-Datei zu konfigurieren und jederzeit zu bearbeiten. Denken Sie nur daran, dass Sie mit dieser Aktion das Beste aus den Besuchen der Bots herausholen wollen. Indem Sie sie daran hindern, irrelevante Seiten zu sehen, stellen Sie sicher, dass die Zeit, die sie auf der Website verbringen, viel profitabler ist.

    Schließlich denken Sie daran, dass die SEO Best Practice für robots.txt darin besteht, sicherzustellen, dass alle relevanten Inhalte indexierbar und bereit für das Crawlen sind! Sie können den Prozentsatz der indexierbaren und nicht indexierbaren Seiten an den Gesamtseiten einer Website mit dem Crawl von FandangoSEO sowie die von der Datei robots.txt blockierten Seiten sehen.


    Robots.txt Anwendungsfälle

    Die robots.txt steuert den Zugriff des Crawlers auf einige Bereiche der Website. Dies kann manchmal riskant sein, vor allem wenn der GoogleBot versehentlich nicht die gesamte Website crawlen darf, aber es gibt Situationen, in denen eine robots.txt-Datei praktisch sein kann.

    Einige der Fälle, in denen es ratsam ist, robots.txt zu verwenden, sind die folgenden

    • Wenn Sie die Vertraulichkeit einiger Bereiche einer Website wahren möchten, z. B. weil es sich um eine Testseite handelt.
    • Um zu vermeiden, dass doppelte Inhalte auf der Google-Ergebnisseite erscheinen, sind Meta-Bots eine noch wünschenswertere Option.
    • Wenn Sie nicht möchten, dass interne Suchergebnisseiten auf einer öffentlichen Ergebnisseite erscheinen.
    • So legen Sie den Speicherort der Lagepläne fest.
    • Um Suchmaschinen daran zu hindern, bestimmte Dateien auf der Website zu indizieren.
    • Zur Angabe einer Crawl-Verzögerung, um eine Überlastung des Servers zu vermeiden, wenn Crawler mehrere Inhaltsstücke auf einmal laden.

    Wenn es keine Bereiche auf der Website gibt, in denen Sie den Zugriff durch Benutzer-Agenten steuern möchten, benötigen Sie möglicherweise keine robots-txt-Datei.


    Robots.txt SEO Best Practices

    Befolgen Sie diese Tipps, um die robots.txt-Dateien richtig zu verwalten:

    Blockieren Sie keine Inhalte, die verfolgt werden sollen

    Sie sollten auch keine Bereiche der Website blockieren, die nachverfolgt werden sollen.

    Beachten Sie, dass die Bots den Links der durch robots.txt blockierten Seiten nicht folgen werden

    Wenn sie nicht auch von anderen Seiten verlinkt sind, auf die Suchmaschinen zugreifen können, weil sie nicht gesperrt wurden, werden die verlinkten Ressourcen nicht gecrawlt und möglicherweise nicht indiziert.

    Außerdem kann kein Linkwert von der blockierten Seite an das Linkziel weitergegeben werden. Wenn Sie Seiten haben, denen Sie Autorität verleihen möchten, müssen Sie einen anderen Blockierungsmechanismus als robots.txt verwenden.

    Verwenden Sie keine robots.txt, um zu vermeiden, dass vertrauliche Daten auf der Ergebnisseite der Suchmaschine angezeigt werden

    Andere Seiten können direkt auf die Seite mit den vertraulichen Informationen verlinken (und so die robots.txt-Richtlinien in Ihrer Root-Domain oder Ihrer Homepage umgehen), weshalb sie weiterhin indiziert werden kann.

    Um zu verhindern, dass die Seite in den Google-Suchergebnissen erscheint, sollten Sie eine andere Methode verwenden, z. B. einen Passwortschutz oder das noindex-Meta-Tag.

    Denken Sie daran, dass einige Suchmaschinen mehrere Benutzeragenten haben

    Google zum Beispiel verwendet GoogleBot für die organische Suche und GoogleBot-Image für die Bildersuche.

    Die meisten User-Agents einer Suchmaschine folgen den gleichen Regeln, weshalb Sie nicht für jeden Suchmaschinen-Crawler Richtlinien festlegen müssen, aber dadurch können Sie steuern, wie der Inhalt der Website gecrawlt werden soll.

    Die Suchmaschine zwischenspeichert den Inhalt der robots.txt, aktualisiert die zwischengespeicherten Daten aber normalerweise täglich

    Wenn Sie die Datei ändern und schneller aktualisieren möchten, können Sie die robots.txt-URL an Google senden.

    Einschränkungen der Robots.txt-Datei

    Schließlich werden wir sehen, welche Aspekte die Funktion der robots.txt-Datei einschränken:

    Die Seiten werden weiterhin in den Suchergebnissen angezeigt

    Die Seiten, die aufgrund der robots.txt-Datei für Suchmaschinen unzugänglich sind, aber Links zu ihnen haben, können trotzdem in den Suchergebnissen von einer crawlbaren Seite erscheinen.

    Enthält nur Direktiven

    Google respektiert die robots.txt-Datei in hohem Maße, aber es handelt sich immer noch um eine Richtlinie und nicht um ein Mandat.

    Dateigröße

    Google unterstützt ein Limit von 521 Kilobyte für robots.txt-Dateien, und wenn der Inhalt diese maximale Größe überschreitet, kann er ignoriert werden. Wir wissen nicht, ob andere Suchmaschinen auch ein Limit für diese Dateien festlegen.

    Robot txt. wird 24 Stunden gecached

    Laut Google wird die robots.txt-Datei in der Regel bis zu 24 Stunden lang zwischengespeichert. Etwas, das Sie im Hinterkopf behalten sollten, wenn Sie Änderungen an der Datei vornehmen.

    Es ist nicht ganz klar, wie andere Suchmaschinen die zwischengespeicherte Datei behandeln, aber es ist am besten, das Zwischenspeichern Ihrer robots.txt zu vermeiden, damit die Suchmaschinen nicht länger brauchen, um Änderungen zu erkennen.

    5xx Server-Fehler Meta-Robots-Tag

    Was sollte man über die Robots txt machen?

    In der robots. txt wird genau hinterlegt, welcher Crawler bestimmte Verzeichnisse, Unterverzeichnisse oder nur einzelne Dateien nicht durchsuchen darf und für ihn gesperrt sind. Sie können also hinterlegen, dass der googlebot bestimmte Seiten durchsuchen darf, aber der bingbot nicht, oder andersherum.

    Wo liegt die Robots txt?

    Das Wichtigste zuerst: Die Robots. txt Datei liegt auf Ihrem Webspace und die Crawler und Spider halten nach dieser Datei Ausschau, um Anweisungen zu erhalten, bevor Sie Ihre Website crawlen. Deshalb sollte die Robots.

    Wie erstelle ich eine Robots txt?

    Folgende Richtlinien musst du beim Erstellen der Robots-Datei einhalten:.
    Die txt-Datei muss Standard-UTF-8 sein..
    Sie muss den Namen robots. txt tragen..
    Sie muss im Stammverzeichnis deiner Website liegen, eine robots. ... .
    Innerhalb der Datei muss die Groß- und Kleinschreibung beachtet werden..

    Toplist

    Neuester Beitrag

    Stichworte