Pliki PDF i problem SEO z duplikacją treści

Ostatnio miałem do czynienia z ciekawym przypadkiem, z którym do tej pory osobiście się nie spotkałem. Po krótkim rozeznaniu okazało się, że jest on dość powszechny w sieci. Mianowicie problem z kopią treści podstrony w pliku PDF i jego wpływem na optymalizację strony dla wyszukiwarek (SEO).

 

Plik PDF generowany był automatycznie z treści/opisu produktu w sklepie internetowym. Jak wiadomo, tekstowe pliki PDF traktowane są przez wyszukiwarki na równi ze zwykłymi plikami HTML. Wg kilku znalezionych opinii są nawet preferowane i uznawane za bardziej wartościowe, jednak to inny temat. Mając więc, treść strony w formie pliku HTML i taką samą w formie pliku PDF, nieumyślnie duplikujemy treść, do której prowadzą dwa adresy URL. Owszem dla użytkownika bywa to pomocnym rozwiązaniem, gdyż w przystępnej formie może wydrukować/pobrać interesujące informacje, jednak dla wyszukiwarki to po prostu powielona treść.

 

 

Pobierz plik PDF

Jak zapobiec duplikacji treści przez plik PDF?

W prosty sposób – korzystając z meta tagu „rel=canonical” do preferowanej wersji, przeważnie HTML, czyli konkretnej podstrony. Można także dodać znacznik „rel=nofollow” do samego odnośnika, za pomocą którego generujemy plik PDF. Jednak jak się okazuje, projektanci stron nie zawsze o tym pamiętają.

 

 

Negatywne SEO za pomocą PDF?

Istnieje jeszcze inny problem związany z duplikacją treści przez pliki PDF. Ich kopiowanie przez internautów i umieszczanie na swoich stronach. Z jednej strony tworząc np. e-book z ciekawą treścią, nastawiony na zdobywanie popularności w sieci, liczymy na linki zwrotne do niego. Jednak zdarza się, że jest on po prostu kopiowany i umieszczany na stronie. Dotyczy to też treści strony i opisów produktów w sklepie.

 

Wyszukiwarki (m.in. Google) są w stanie odczytać treść pliku i określić, gdzie pojawiła się  po raz pierwszy. Jednak nasuwa się pytanie, co stanie się jeżeli zostanie ona powielona dziesiątki/setki razy i umieszczona na stronach o nieznanym lub podejrzanym autorytecie? W końcu niedawne zmiany algorytmu Google pomagają w tzw. „negatywnym SEO” a linki w plikach PDF także są uwzględniane, jako linki przychodzące. Dodatkowo pochodzą one z wielokrotnie powielonej treści.

 

 

Może Ci się spodoba...

6 komentarzy

  1. Kapsel pisze:

    jak ustawić canonical w pliku PDF?

  2. SEO Codum pisze:

    W samym pliku niestety nie ma takiej możliwości, a byłoby to dobrym rozwiązaniem zważywszy na tegoroczne zmiany w algorytmie Google. Stąd niedługo może się okazać, że jeżeli jakiś nasz PDF zawierający w treści link do naszej strony stał się wyjątkowo popularny, możemy mieć problem. Jednak to jedynie założenie czysto hipotetyczne.

  3. dostrzegani pisze:

    Jest lepsza metoda, wystarczy zablokować indeksację plików PDF za pomocą kodu w robots.txt:

    Noindex: /*pdf

    • SEO Codum pisze:

      Masz rację. Jednak ta metoda nie zawsze jest przydatna. Ostatnio ustawiałem kilka linków kanonicznych by wskazywały pliki PDF, jako właściwą wersję podstrony. Chodziło o katalogi produktów w formie PDF. Noindex w robots.txt nie sprawdza się w przypadku kiedy Klient sam może określić wersję kanoniczną treści podstrony.

  4. Przydatny wpis, często się zdarza że na stronie klienta jest to samo co w pdfie, zazwyczaj bagatelizowałem tą kwestię – strony jakoś nie traciły na pozycjach. WPorwdzę zmiany i poczekam na update – może będzie pozytywnie.

  5. lukasz pisze:

    No dobrze, ale co sie stanie gdy np uzytkownicy udostepnia nasz pdf? Google ukara nas za to, ze jakas tam nasza publikacja jest popularna?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *