Praktyczne informacje i specjalne oferty prosto na Twoją skrzynkę email.
Od teraz o wszystkim co godne uwagi dowiesz się błyskawicznie.
Ty też możesz chronić stronę i swoich Klientów. Sprawdź szczegóły.
Robot indeksujący wyszukiwarki to rozbudowane narzędzie służące do przeszukiwania i indeksowania treści umieszczonych w Internecie. Roboty poszukują głównie treści oraz linków, które pozwalają im ocenić tematykę strony, a następnie udostępnić te treści użytkownikom w wynikach wyszukiwania. Proces ten dzieli się na dwa etapy: przeszukiwanie (ang. crawling) i indeksowanie (ang. indexing).
Właściciele witryn mają możliwość ograniczenia działań robotów. Nie jest to fizyczna blokada uniemożliwiająca fizyczne „przeczesywanie” zawartości strony, a raczej informacja (zapisywana w pliku robots.txt), że nie wolno tego robić.
Plik robots.txt to plik tekstowy (bez tagów HTML), we wnętrzu którego umieszcza się polecenia regulujące zasady dostępu robotów wyszukiwarek do witryn www i ich podstron. Wykorzystuje on specjalny protokół Robots Exclusion Protocol, przy pomocy komend którego możemy zabronić (ang. disallow) robotom dostępu do wybranych katalogów czy plików w serwisie. Musi być umieszczony w katalogu głównym strony internetowej, dla której reguły zawiera.
Plik robots.txt składa się z sekcji, z których każda zawiera wiersz z nazwą robota (User-agent) oraz wiersza(e) zawierającego ścieżki, do których danemu robotowi zakazany jest dostęp (Disallow). W przypadku, gdy chcemy udostępnić robotowi adres URL katalogu podrzędnego w zablokowanym katalogu nadrzędnym można użyć trzeciego słowa kluczowego Allow. Poszczególne sekcje są oddzielane pustymi wierszami.
W pliku mogą być również umieszczane komentarze, które muszą być poprzedzone znakiem #, niektóre roboty potrafią zinterpretować również dyrektywę Sitemap informującą o położeniu pliku z mapą strony (sitemap.xml).
User-agent: <nazwa robota, do którego odnoszą się zasady w kolejnych wierszach sekcji>
Disallow: <adres URL, który chcemy zablokować>
Allow: <adres URL do katalogu podrzędnego w zablokowanym katalogu nadrzędnym>
Sitemap: <pełny adres URL mapy witryny>
# <komentarz>
Przykłady:
User-agent: * #wszystkie roboty Disallow: /
User-agent: *
Disallow:
User-agent: Googlebot #tylko ten robot
Disallow: /tmp/ #zablokuj dostęp do tego katalogu
Disallow: /private/ #zablokuj dostęp do tego katalogu
User-agent: Googlebot-Image
Disallow: /pictures/zdjecie.jpg
W pliku robots.txt można umieścić dowolną liczbę sekcji. W każdej z nich wiele wierszy Disallow może odnosić się do wymienionego w sekcji User-agent robota/ów. Przy tworzeniu pliku przydatna jest znajomość nazw robotów poszczególnych wyszukiwarek. Można ją znaleźć na stronie Robots Database.
Plik robots.txt można utworzyć za pomocą dowolnego edytora tekstu (np. notatnika Windows czy Notepad++), a następnie umieścić go w katalogu głównym domeny. Przed umieszczeniem pliku robots.txt na serwerze warto sprawdzić jego poprawność za pomocą testera udostępnianego przez Narzędziach dla webmasterów Google.
Niektórzy pozycjonerzy sugerują blokowanie dostępu do stron robotom mało popularnych wyszukiwarek, gdyż używany przez nich do ściągania stron protokół http generuje ruch na serwerze i może go nadmiernie obciążać.
Należy pamiętać o tym, że nie wszystkie roboty muszą przestrzegać poleceń zawartych w pliku robots.txt. Należy je traktować raczej jako wytyczne niż reguły. W związku z tym w celu zabezpieczenia informacji o charakterze prywatnym zaleca się wykorzystanie innych metod blokowania dostępu do zasobów, na przykład ochrony prywatnych plików hasłem.
Udostępnij ten artykuł innym: