Pliki PDF i problem SEO z duplikacją treści

5

Ostatnio miałem do czynienia z ciekawym przypadkiem, z którym do tej pory osobiście się nie spotkałem. Po krótkim rozeznaniu okazało się, że jest on dość powszechny w sieci. Mianowicie problem z kopią treści podstrony w pliku PDF i jego wpływem na optymalizację strony dla wyszukiwarek (SEO).

 

Plik PDF generowany był automatycznie z treści/opisu produktu w sklepie internetowym. Jak wiadomo, tekstowe pliki PDF traktowane są przez wyszukiwarki na równi ze zwykłymi plikami HTML. Wg kilku znalezionych opinii są nawet preferowane i uznawane za bardziej wartościowe, jednak to inny temat. Mając więc, treść strony w formie pliku HTML i taką samą w formie pliku PDF, nieumyślnie duplikujemy treść, do której prowadzą dwa adresy URL. Owszem dla użytkownika bywa to pomocnym rozwiązaniem, gdyż w przystępnej formie może wydrukować/pobrać interesujące informacje, jednak dla wyszukiwarki to po prostu powielona treść.

 

 

Pobierz plik PDF

Jak zapobiec duplikacji treści przez plik PDF?

W prosty sposób – korzystając z meta tagu „rel=canonical” do preferowanej wersji, przeważnie HTML, czyli konkretnej podstrony. Można także dodać znacznik „rel=nofollow” do samego odnośnika, za pomocą którego generujemy plik PDF. Jednak jak się okazuje, projektanci stron nie zawsze o tym pamiętają.

 

 

Negatywne SEO za pomocą PDF?

Istnieje jeszcze inny problem związany z duplikacją treści przez pliki PDF. Ich kopiowanie przez internautów i umieszczanie na swoich stronach. Z jednej strony tworząc np. e-book z ciekawą treścią, nastawiony na zdobywanie popularności w sieci, liczymy na linki zwrotne do niego. Jednak zdarza się, że jest on po prostu kopiowany i umieszczany na stronie. Dotyczy to też treści strony i opisów produktów w sklepie.

 

Wyszukiwarki (m.in. Google) są w stanie odczytać treść pliku i określić, gdzie pojawiła się  po raz pierwszy. Jednak nasuwa się pytanie, co stanie się jeżeli zostanie ona powielona dziesiątki/setki razy i umieszczona na stronach o nieznanym lub podejrzanym autorytecie? W końcu niedawne zmiany algorytmu Google pomagają w tzw. „negatywnym SEO” a linki w plikach PDF także są uwzględniane, jako linki przychodzące. Dodatkowo pochodzą one z wielokrotnie powielonej treści.

 

 

VN:F [1.9.21_1169]
Rating: 4.5/5 (4 votes cast)
Pliki PDF i problem SEO z duplikacją treści, 4.5 out of 5 based on 4 ratings
5 odpowiedzi do artykułu
  1. Kapsel 31 lipca 2012 o 15:30

    jak ustawić canonical w pliku PDF?

    Odpowiedz
  2. SEO Codum 31 lipca 2012 o 17:17

    W samym pliku niestety nie ma takiej możliwości, a byłoby to dobrym rozwiązaniem zważywszy na tegoroczne zmiany w algorytmie Google. Stąd niedługo może się okazać, że jeżeli jakiś nasz PDF zawierający w treści link do naszej strony stał się wyjątkowo popularny, możemy mieć problem. Jednak to jedynie założenie czysto hipotetyczne.

    Odpowiedz
  3. dostrzegani 5 sierpnia 2012 o 18:10

    Jest lepsza metoda, wystarczy zablokować indeksację plików PDF za pomocą kodu w robots.txt:

    Noindex: /*pdf

    Odpowiedz
  4. SEO Codum 5 sierpnia 2012 o 23:16

    Masz rację. Jednak ta metoda nie zawsze jest przydatna. Ostatnio ustawiałem kilka linków kanonicznych by wskazywały pliki PDF, jako właściwą wersję podstrony. Chodziło o katalogi produktów w formie PDF. Noindex w robots.txt nie sprawdza się w przypadku kiedy Klient sam może określić wersję kanoniczną treści podstrony.

    Odpowiedz
  5. Star Marketing 10 sierpnia 2012 o 19:56

    Przydatny wpis, często się zdarza że na stronie klienta jest to samo co w pdfie, zazwyczaj bagatelizowałem tą kwestię – strony jakoś nie traciły na pozycjach. WPorwdzę zmiany i poczekam na update – może będzie pozytywnie.

    Odpowiedz

Dodaj komentarz