Pliki PDF i problem SEO z duplikacją treści
Ostatnio miałem do czynienia z ciekawym przypadkiem, z którym do tej pory osobiście się nie spotkałem. Po krótkim rozeznaniu okazało się, że jest on dość powszechny w sieci. Mianowicie problem z kopią treści podstrony w pliku PDF i jego wpływem na optymalizację strony dla wyszukiwarek (SEO).
Plik PDF generowany był automatycznie z treści/opisu produktu w sklepie internetowym. Jak wiadomo, tekstowe pliki PDF traktowane są przez wyszukiwarki na równi ze zwykłymi plikami HTML. Wg kilku znalezionych opinii są nawet preferowane i uznawane za bardziej wartościowe, jednak to inny temat. Mając więc, treść strony w formie pliku HTML i taką samą w formie pliku PDF, nieumyślnie duplikujemy treść, do której prowadzą dwa adresy URL. Owszem dla użytkownika bywa to pomocnym rozwiązaniem, gdyż w przystępnej formie może wydrukować/pobrać interesujące informacje, jednak dla wyszukiwarki to po prostu powielona treść.
Jak zapobiec duplikacji treści przez plik PDF?
W prosty sposób – korzystając z meta tagu „rel=canonical” do preferowanej wersji, przeważnie HTML, czyli konkretnej podstrony. Można także dodać znacznik „rel=nofollow” do samego odnośnika, za pomocą którego generujemy plik PDF. Jednak jak się okazuje, projektanci stron nie zawsze o tym pamiętają.
Negatywne SEO za pomocą PDF?
Istnieje jeszcze inny problem związany z duplikacją treści przez pliki PDF. Ich kopiowanie przez internautów i umieszczanie na swoich stronach. Z jednej strony tworząc np. e-book z ciekawą treścią, nastawiony na zdobywanie popularności w sieci, liczymy na linki zwrotne do niego. Jednak zdarza się, że jest on po prostu kopiowany i umieszczany na stronie. Dotyczy to też treści strony i opisów produktów w sklepie.
Wyszukiwarki (m.in. Google) są w stanie odczytać treść pliku i określić, gdzie pojawiła się po raz pierwszy. Jednak nasuwa się pytanie, co stanie się jeżeli zostanie ona powielona dziesiątki/setki razy i umieszczona na stronach o nieznanym lub podejrzanym autorytecie? W końcu niedawne zmiany algorytmu Google pomagają w tzw. „negatywnym SEO” a linki w plikach PDF także są uwzględniane, jako linki przychodzące. Dodatkowo pochodzą one z wielokrotnie powielonej treści.
jak ustawić canonical w pliku PDF?
W samym pliku niestety nie ma takiej możliwości, a byłoby to dobrym rozwiązaniem zważywszy na tegoroczne zmiany w algorytmie Google. Stąd niedługo może się okazać, że jeżeli jakiś nasz PDF zawierający w treści link do naszej strony stał się wyjątkowo popularny, możemy mieć problem. Jednak to jedynie założenie czysto hipotetyczne.
Jest lepsza metoda, wystarczy zablokować indeksację plików PDF za pomocą kodu w robots.txt:
Noindex: /*pdf
Masz rację. Jednak ta metoda nie zawsze jest przydatna. Ostatnio ustawiałem kilka linków kanonicznych by wskazywały pliki PDF, jako właściwą wersję podstrony. Chodziło o katalogi produktów w formie PDF. Noindex w robots.txt nie sprawdza się w przypadku kiedy Klient sam może określić wersję kanoniczną treści podstrony.
Przydatny wpis, często się zdarza że na stronie klienta jest to samo co w pdfie, zazwyczaj bagatelizowałem tą kwestię – strony jakoś nie traciły na pozycjach. WPorwdzę zmiany i poczekam na update – może będzie pozytywnie.
No dobrze, ale co sie stanie gdy np uzytkownicy udostepnia nasz pdf? Google ukara nas za to, ze jakas tam nasza publikacja jest popularna?