70 000 000 000 $ – tyle w 2014 roku wyniósł globalny przychód firm marketingowych skupionych wokół wyszukiwarek. Rozmiar tej liczby lepiej obrazują wypisane zera niż suche „70 miliardów”. A także porównania: to już 83% globalnego przychodu ze sprzedaży gier i 22% przychodu całego przemysłu kosmicznego. Tylko w samej Polsce przez rok wydaje się ponad miliard złotych na działania związane z wyszukiwarkami, a konkretniej na jedną wyszukiwarkę – od lat pierwszą stroną polskiego internetu jest Google.pl.

Niesamowity sukces firmy Google ciężko sprowadzić do jednego czynnika, ale gdyby ekipa konkurencyjnej wyszukiwarki porwała mnie i z pistoletem przystawionym do głowy kazała zdradzić receptę, powiedziałbym: dobre pomysły. Z ich realizacją bywa różnie, ale Google zdecydowanie jest gigantem świetnych konceptów. Jeden z flagowych pomysłów to prezentowanie wyników w specjalnej kolejności, ułożonej przez autorów wyszukiwarki. Nie według alfabetu, chronologii czy czystej zgodności z zapytaniem, ale według oceny strony na podstawie przeszło 200 czynników. W ten sposób prosta wyszukiwarka powinna stać się niemalże doradcą wskazującym najlepsze strony. Brzmi świetnie, a działa?

Działa różnie. Przede wszystkim działało różne. Początkowo zasady ustalania kolejności zostały rozgryzione przez spamerów i rozpoczęła się wojna o jakość wyników wyszukiwania. Na froncie przeciwko spamowi stanęli sami pracownicy korporacji dokonujący ręcznych działań. Jednak gdy w 2009 roku dzięki aktualizacji o nazwie Caffeine lokomotywa firmy Google rozpędziła się i zaczęła indeksować potężne ilości nowych witryn, sytuacja szybko wymknęła się spod kontroli.

Systemy Google zostały zaspamowane. Na pierwszej stronie wyszukiwania zazwyczaj jest wszystko jest formą seo-spamu: strony które przekierowują do innych witryn po drodze wyświetlając reklamy lub kopie Wikipedii z ogromną ilością reklam.

Tu padł kolejny doskonały pomysł: zautomatyzujmy to. To zawsze dobra myśl, ale w tym konkretnym przypadku była przełomowa. Postanowiono, że pojawi się nowy czynnik rankingowy – ocena jakości strony. Jeżeli będzie osiągnie pewien poziom (w skali 0-1 lub w bardziej rozbudowanej), witryna nigdy nie będzie straszyła użytkowników na pierwszych stronach wyszukiwania. Ocenę będzie cyklicznie ustalał specjalny algorytm.

I tak powstał algorytm Google Panda.

Pierwszy raz został wypuszczony na początku 2011 roku. Notabene sympatyczne zwierzę z lasów bambusowych nie było etymologiczną inspiracją, ponieważ nazwa została odziedziczona po inżynierze o nazwisku Panda.

Nie bez powodu wtrąciłem tą dygresję. Algorytm wcale nie przystawał do sympatycznej nazwy:

Jest wiele pobocznych szkód. Świetnej jakości strony również dostały, więc ciężko stwierdzić czy ogólna jakość wyników wzrosła.

Zostaliśmy nieuczciwie wrzuceni do worka z serwisami o znacznie niższej jakości. Dbamy o odpowiedni poziom treści.

Straciliśmy połowę z 57 milionów unikalnych użytkowników miesięcznie.

Ezinearticles.com zostało przez Pandę niemal dosłownie uśmiercone:

Z kolei korporacja Google była wręcz zachwycona poprawą wyników wyszukiwania, więc wszelką krytykę zbywała synonimem jest dobrze:

Z naszych testów wynika, że algorytm bardzo dokładnie ocenia jakość witryny. Jeżeli uważasz, że twoja strona ma wysoką jakość i spadła w wyniku działania nowego algorytmu, zachęcamy cię do głębszej analizy treści w swoim serwisie.

Hegemon rynku wyszukiwarek skorzystał ze swojej pozycji. Należało dostosować się, poprawić jakość i czekać aż algorytm zostanie odświeżony. Manualne odświeżanie Pandy ma czysto praktyczne zalety – tylko przez chwilę wymaga większych mocy przerobowych, pozwala na obserwację i pełną kontrolę wyników wyszukiwania, a także daje programistom czas na wprowadzanie poprawek. Dlatego równoznacznym określeniem na nowe Pandy stało się słowo aktualizacja.

Zależnie od przyjętej nomenklatury, przyjmuje się że było 28-31 aktualizacji algorytmu Panda. Najważniejsze z nich:


Panda 1.0 24/02/2011 — 11.8% zapytań zmienionych
Panda 2.0 11/04/2011 — 2%
Anonimowa aktualizacja   12/08/2011 — 6–9%, pierwsza w Polsce
Panda 3.0 19/10/2011 — 2%
Panda 4.0 20/05/2014 — 7.5%

Najnowsza aktualizacja rozpoczęła się 18 czerwca 2015. To nie błąd – rozpoczęła się i nadal nie wiadomo czy dobiegła końca. Firma Google zapowiedziała, że zamiast kilkudniowego uderzenia będziemy mieć zmiany trwające nawet kilka miesięcy. Jako powód podano anonimowe kwestie techniczne. Początkowo taka zapowiedź nie była traktowana zbyt poważnie, ale jeszcze 1 października 2015 mieliśmy potwierdzenie:

Searchengineland.com

Jak de facto działa algorytm Panda?

Jako niemal nienaruszalny monopolista, Google nic nie musi. Nie musi informować kiedy pojawi się aktualizacja, czym będzie i dlaczego karze akurat te a nie inne strony. I korzysta z tego prawa dość skrzętnie. W razie pytań o szczegóły zazwyczaj odsyła do… wpisu z 2011 roku, który w ogólnych słowach referuje jaki był zamysł algorytmu. Tam Amit Singhal podaje listę pytań, którymi kierowano się przy projektowaniu Pandy. Warto je przytoczyć:

  1. Czy zaufałbyś informacjom podanym w tym artykule?
  2. Artykuł jest napisany przez dobrze zaznajomionego z tematem eksperta/entuzjastę czy raczej kogoś kto zna temat pobieżnie?
  3. Czy strona ma zduplikowane, powielone lub powtarzające się artykuły na ten sam temat z częściowo różnymi słowami kluczowymi?
  4. Czy zostawiłbyś dane do karty kredytowej tej witrynie?
  5. Czy artykuł ma błędy gramatyczne, stylistyczne lub merytoryczne?
  6. Treści są tworzone zgodnie z zainteresowaniami czytelników czy raczej są nakierowane na pojawianie się wysoko w wynikach wyszukiwania?
  7. Czy artykuł zawiera oryginalną treść, informacje, raporty, research i analizy?
  8. Czy strona wnosi istotną wartość w porównaniu do konkurentów w wynikach wyszukiwania?
  9. Czy treść przeszła kontrolę jakości?
  10. Czy artykuł porusza obie strony medalu?
  11. Czy strona jest poważana w temacie?
  12. Czy treść jest masowo produkowana przez wiele osób i umieszczana na sieci serwisów tego samego rodzaju, tak że pojedyncze witryny bywają zaniedbywane?
  13. Artykuł został dokładnie przejrzany czy wygląda niechlujnie?
  14. Przy zapytaniach medycznych: czy zaufałbyś informacjom na tej stronie?
  15. Gdybyś zobaczył samą nazwę witryny, czy uznałbyś ją za źródło warte zaufania?
  16. Czy artykuł daje kompletny, obszerny wgląd w temat?
  17. Czy artykuł zawiera głębsze analizy lub interesujące informacje wykraczające poza truizmy?
  18. Czy to rodzaj strony, którą byś dodał do zakładek lub polecił?
  19. Czy w witrynie jest zbyt dużo reklam?
  20. Czy mógłbyś się spotkać z tym artykułem w prasie, encyklopedii lub książce?
  21. Czy artykuły są krótkie, mało wartościowe lub w inny sposób mało pomocne?
  22. Treść powstała z dużą dbałością i dokładnością czy niedokładnie?
  23. Czy użytkownicy narzekaliby widząc tą witrynę?

Algorytm nie jest w stanie bezpośrednio odpowiedzieć na te pytania, więc musi polegać na heurystycznym przybliżaniu. Dobrze referują to słowa z Q&A pracowników Google:

Możesz sobie wyobrazić grupę punktów w hiperprzestrzeni, część z nich jest czerwona, część zielona, a część dwukolorowa. Twoim zadaniem jest znalezienie płaszczyzny, która oddzieli większość czerwonych od większości zielonych punktów.

Ilustracja po lewej została zaczerpnięta z omawiającej ten sam temat pracy naukowej Navneeta Pandy – zbieżność nazwisk prawdopodobnie nie jest przypadkowa. Jednak naiwnie byłoby przypuszczać, że właśnie w tym dokumencie znajduje się clue. Była to, razem z pozostałym dorobkiem naukowym, raczej przepustka do pracy przy samym algorytmie. Z tą osobą jest związany jeszcze jeden ciekawy dokument: patent Google, który według jednej z analiz częściowo porusza działanie algorytmu Panda. Niestety niewiele to wnosi do tematu, ponieważ clue stanowi abstrakcyjne rozwiązanie oparte o anonimowe grupy i zasoby, pod które można podciągnąć zbyt wiele rzeczy by wyciągnąć z tego konkretne wnioski.

Doświadczenia wskazują co wystarczy by znaleźć się po niewłaściwej stronie. Witryna jest zagrożona, gdy w jej obrębie będą obecne podstrony, które zawierają:

  • płytką, powierzchowną, nieużyteczną treść
  • błędy językowe
  • treść powtarzającą się w obrębie witryny
  • treść skopiowaną z innych serwisów

Pracownicy Google wielokrotnie powtarzali, że tego typu pojedyncze podstrony mogą obniżyć ocenę całej witryny. Wtedy w wyniku odświeżenia algorytmu pozycje spadają, do kolejnej aktualizacji jest czas by poprawić błędy – usunąć, wyindeksować, połączyć, rozwinąć poszczególne części serwisu – i liczyć na prędkie nowe rozdanie.

Co dalej?

Najnowsza aktualizacja algorytmu Panda jest małym novum. Ze względu na jej rozpiętość czasową, ciężko jednoznacznie przypisać ruchy w wynikach wyszukiwania właśnie tej aktualizacji. Google zasłania się ograniczeniami technicznymi i trudno powiedzieć czy to prawdziwy pożar czy tylko zasłona dymna. A może kolejny świetny pomysł? Jak zwykle, rozważania można zakończyć tradycyjnym: zobaczymy, czas pokaże.

Zalinkowane źródła: Broadstuff.com, Wall Street Journal, Google Webmaster Central, SearchEngineLand.com, Wired.com, Uniwersytet Świętej Barbary w Kalifornii, Biuro patentowe Stanów Zjednoczonych. Grafiki: SearchEngineLand.com, prezentacja Michaela Cottama, SEMrush.com, publikacja Navneeta Pandy.