Naszą stronę odwiedzają roboty internetowe czy boty indeksujące. Ze względu na ich funkcje czy sposób poruszania zwie się je z ang. crawlerami, po polsku nieraz można się spotkać z pojęciem pełzacza.

Ważne jest to, że sami możemy decydować o tym, jakimi ścieżkami będą podążały; na czym mają się skupić, a co raczej pominąć. A wszystko to z myślą o tym, by jak najlepiej wypozycjonować naszą witrynę.

Przedstawimy tu kilka prostych sposobów na to, by kontrolować przepływ i zachowanie owych robotów.

Komendy w pliku robots.txt

Zacznijmy od sprawy kardynalnej. Każda witryna – czy to portal informacyjny, czy sklep internetowy – musi mieć plik robots.txt. Powinno się go ulokować w ściśle mu przypisanym miejscu – tzn. w głównym katalogu strony. To w nim będziesz wpisywał polecenia. Określą one zakres aktywności robotów indeksujących docierających na nasz serwis. Wydajesz więc dyrektywy. Do nich dopasują się roboty.

Wspomniany plik przyjmuje następującą formę:

User-agent:

Disallow:

W pierwszej linijce definiujesz, które z botów zobowiązane są przestrzegać dane polecenie. Jego nazwę wpisujesz tuż po dwukropku. Możesz również wpisać tu gwiazdkę, czyli “*”. Tym samym weźmiesz w rachubę wszystkie roboty, które tylko się pojawią na Twojej witrynie.

Nasuwa się pytanie – skąd mamy znać ich nazwy oraz pełnione funkcje? Jak się okazuje, nie jest to wcale takie trudne! Otóż pomocne są specjalne narzędzia. Korzystając z nich szybko znajdziesz pełną listę robotów. Przy okazji przekonasz się, jakim “służą” wyszukiwarkom. Jeśli dla tych mniej popularnych – czyli, jak niektórzy by powiedzieli, każdej oprócz Google – to zasadne jest je zablokować; ich praca i tak nie przynosi nam żadnych korzyści, bez potrzeby natomiast obciążają naszą witrynę.

Wróćmy tymczasem do polecenia. W drugiej linijce (zatem disallow) wpisujemy sekcje serwisu, które chcemy zamknąć przed nosem konkretnego pełzacza. Jeżeli pozostawimy tu puste miejsce, to tym samym udostępnimy wejście wszystkim robotom. Mówiąc obrazowo: otworzymy im na oścież bramy naszego serwisu.

Gdy chcemy zablokować crawlerom całą stronę, umieszczamy tam znak “/”. W innym wypadku, wpisując odpowiednią treść, zagradzamy mu dostęp do poszczególnych  katalogów czy plików.

Możesz zobaczyć, jakie roboty odwiedzają Twoją stronę oraz jaki rodzaj danych pobierają (czy jest to głębokie indeksowanie, czy na przykład płytkie, codzienne). Następnie przy pomocy narzędzia – np. AWStats – wydasz najlepsze według Twego uznania komendy.

Ustaw znaczniki w nagłówkach

Istnieją również inne metody kierowania robotom poleceń. Robimy to poprzez znaczniki umieszczane w nagłówkach każdej podstrony. Chodzi o <meta name = “robots”/>. Uzupełniamy go o pożądane wartości.

Wzbogacony o nie znacznik powinien wyglądać tak:

<meta name=“robots”=”wydana przez Ciebie komenda”/>

“Wydaną przez Ciebie komendą” może być któraś z poniższych:

index – robot zaindeksuje stronę, wskutek czego internauta odnajdzie ją poprzez wyszukiwarkę

follow – komunikat dla robota, aby śledził odnośniki na stronie, dzięki temu przejdzie do kolejnych podstron

noindex – crawler nie zaindeksuje strony, zatem użytkownicy sieci nie odnajdą jej na liście wyszukiwań

nofollow – robot pominie odnośniki zawarte na danej stronie i nie przejdzie do podlinkowanych sekcji witryny

all – crawler zarówno zaindeksuje stronę jak i prześledzi jej odnośniki

none – robot ani nie zaindeksuje strony, ani nie odwiedzi odnośników

Pamiętaj również o tym, by usprawnić nawigację na Twojej stronie. Jeśli nawet widzisz, że wszystko gra, sprawdź kod strony, drobne z pozoru błędy wyprowadzą bota na manowce, uniemożliwiając mu tym samym zebranie danych na temat Twojego portalu.

Spraw, aby roboty podążały tymi ścieżkami, jakie im wytyczysz. Wówczas prędko dotrą do ważnych miejsc. Im szybciej i sprawniej je zaindeksują, tym lepiej dla Ciebie.