Robots.txt i WordPress – powielenie treści
Robots.txt jest plikiem tekstowym mającym na celu pomóc w indeksowaniu naszej strony przez roboty sieciowe. Dzięki niemu możemy zablokować dostęp do poszczególnych części naszej strony czy jej konkretnych podstron. Na przykład, jeżeli posiadamy stronę z możliwością wydruku poszczególnych stron, właśnie dzięki plikowi robots.txt możemy poinformować roboty, by nie przeszukiwały i indeksowały zasobów zawierających wersję do druku blokując rozszerzenie czy opcję wykorzystywaną w adresie. Dzięki temu unikniemy problemów z powieleniem treści, co w efekcie pozytywnie wpłynie na pozycje naszej strony w wynikach wyszukiwania.
Ponadto w WordPress’ie jest wiele zasobów, które są niepotrzebne i zbędne dla wyszukiwarek, i które dzięki plikowi robots.txt możemy wyłączyć z przeszukiwania i indeksowania. Dodatkowo zmniejszy nam to wykorzystanie transferu na serwerze.
Ustawienia i status blokowanych adresów przez plik robots.txt możemy sprawdzić w Narzędziach dla webmasterów Google > Konfiguracja witryny > Dostęp do robotów.
Podstawowa struktura pliku robots.txt dla strony opartej na systemie zarządzania treścią WordPress powinna wyglądać mniej więcej tak:
Disallow: */wp-admin/
Disallow: */wp-includes/
Disallow: */wp-content/plugins/
Disallow: */wp-content/cache/
Disallow: */trackback/
Disallow: */feed/
Disallow: */page/
Disallow: */comments/
Takie ustawienia zapobiegną przed indeksowaniem folderu administratora, komentarzy, stron typu poprzednia – następna, kanału subskrypcji. Zapobiegnie to wielokrotnemu ukazywaniu się robotom sieciowym jednakowej treści na wielu podstronach. Dodatkowo, by zwiększyć efektywność SEO w WordPress’ie, dobrze jest dodać do stron typu Kategorie i Tagi, meta tagu „noindex, dofollow”.
Podobnie może dziać się w przypadku archiwum dat oraz autorów.
30 min szukania tej jednej właściwej treści. THX.