Pliki PDF i problem SEO z duplikacją treści

Napisał Piotr Rostecki · 31 lipca 2012

Ostatnio miałem do czynienia z ciekawym przypadkiem, z którym do tej pory osobiście się nie spotkałem. Po krótkim rozeznaniu okazało się, że jest on dość powszechny w sieci. Mianowicie problem z kopią treści podstrony w pliku PDF i jego wpływem na optymalizację strony dla wyszukiwarek (SEO).

Plik PDF generowany był automatycznie z treści/opisu produktu w sklepie internetowym. Jak wiadomo, tekstowe pliki PDF traktowane są przez wyszukiwarki na równi ze zwykłymi plikami HTML. Wg kilku znalezionych opinii są nawet preferowane i uznawane za bardziej wartościowe, jednak to inny temat. Mając więc, treść strony w formie pliku HTML i taką samą w formie pliku PDF, nieumyślnie duplikujemy treść, do której prowadzą dwa adresy URL. Owszem dla użytkownika bywa to pomocnym rozwiązaniem, gdyż w przystępnej formie może wydrukować/pobrać interesujące informacje, jednak dla wyszukiwarki to po prostu powielona treść.

Pobierz plik PDF

Jak zapobiec duplikacji treści przez plik PDF?

W prosty sposób – korzystając z meta tagu „rel=canonical” do preferowanej wersji, przeważnie HTML, czyli konkretnej podstrony. Można także dodać znacznik „rel=nofollow” do samego odnośnika, za pomocą którego generujemy plik PDF. Jednak jak się okazuje, projektanci stron nie zawsze o tym pamiętają.

Negatywne SEO za pomocą PDF?

Istnieje jeszcze inny problem związany z duplikacją treści przez pliki PDF. Ich kopiowanie przez internautów i umieszczanie na swoich stronach. Z jednej strony tworząc np. e-book z ciekawą treścią, nastawiony na zdobywanie popularności w sieci, liczymy na linki zwrotne do niego. Jednak zdarza się, że jest on po prostu kopiowany i umieszczany na stronie. Dotyczy to też treści strony i opisów produktów w sklepie.

Wyszukiwarki (m.in. Google) są w stanie odczytać treść pliku i określić, gdzie pojawiła się po raz pierwszy. Jednak nasuwa się pytanie, co stanie się jeżeli zostanie ona powielona dziesiątki/setki razy i umieszczona na stronach o nieznanym lub podejrzanym autorytecie? W końcu niedawne zmiany algorytmu Google pomagają w tzw. „negatywnym SEO” a linki w plikach PDF także są uwzględniane, jako linki przychodzące. Dodatkowo pochodzą one z wielokrotnie powielonej treści.

Kapsel pisze:

31 lipca 2012 o 15:30

jak ustawić canonical w pliku PDF?

Odpowiedz
SEO Codum pisze:

31 lipca 2012 o 17:17

W samym pliku niestety nie ma takiej możliwości, a byłoby to dobrym rozwiązaniem zważywszy na tegoroczne zmiany w algorytmie Google. Stąd niedługo może się okazać, że jeżeli jakiś nasz PDF zawierający w treści link do naszej strony stał się wyjątkowo popularny, możemy mieć problem. Jednak to jedynie założenie czysto hipotetyczne.

Odpowiedz
dostrzegani pisze:

5 sierpnia 2012 o 18:10

Jest lepsza metoda, wystarczy zablokować indeksację plików PDF za pomocą kodu w robots.txt:

Noindex: /*pdf

Odpowiedz
- SEO Codum pisze:
  
  5 sierpnia 2012 o 23:16
  
  Masz rację. Jednak ta metoda nie zawsze jest przydatna. Ostatnio ustawiałem kilka linków kanonicznych by wskazywały pliki PDF, jako właściwą wersję podstrony. Chodziło o katalogi produktów w formie PDF. Noindex w robots.txt nie sprawdza się w przypadku kiedy Klient sam może określić wersję kanoniczną treści podstrony.
  
  Odpowiedz
Star Marketing pisze:

10 sierpnia 2012 o 19:56

Przydatny wpis, często się zdarza że na stronie klienta jest to samo co w pdfie, zazwyczaj bagatelizowałem tą kwestię – strony jakoś nie traciły na pozycjach. WPorwdzę zmiany i poczekam na update – może będzie pozytywnie.

Odpowiedz
lukasz pisze:

17 kwietnia 2015 o 08:41

No dobrze, ale co sie stanie gdy np uzytkownicy udostepnia nasz pdf? Google ukara nas za to, ze jakas tam nasza publikacja jest popularna?

Odpowiedz

Pliki PDF i problem SEO z duplikacją treści

Jak zapobiec duplikacji treści przez plik PDF?

Negatywne SEO za pomocą PDF?

Może Ci się spodoba...

6 komentarzy

Dodaj komentarz Anuluj pisanie odpowiedzi

Ostatnie artykuły

Kategorie

Komentarze

Pliki PDF i problem SEO z duplikacją treści

Jak zapobiec duplikacji treści przez plik PDF?

Negatywne SEO za pomocą PDF?

Może Ci się spodoba...

Problemy z indeksowaniem strony

Jak nie pozycjonować strony www

Prawdopodobnie sztuczny profil linków strony

6 komentarzy

Dodaj komentarz Anuluj pisanie odpowiedzi

Ostatnie artykuły

Kategorie

Komentarze