Przeszukaj Wiedzodajnię

Przejdź do wyszukiwarki globalnej

Poradniki na Twój Email

Praktyczne informacje i specjalne oferty prosto na Twoją skrzynkę email.

Wpisz Email: 
 

Ostatnie Artykuły

Jak dodać pasek z informacją o ciasteczkach
 
Apptiker - czyli narzędzia dla strony www
 
Mierzymy wydajność strony internetowej
 
Mniej znane funkcje Google
 
Wielkie zmiany w Google
 

Ostatni komentarz

Subskrybuj kanał RSS

Kanał RSS

Od teraz o wszystkim co godne uwagi dowiesz się błyskawicznie.

U nas jesteś bezpieczny

website security

Ty też możesz chronić stronę i swoich Klientów. Sprawdź szczegóły.

Apptiker

Kilka słów o pliku robots.txt

Autor: , Data publikacji , Kategoria: Pozycjonowanie i optymalizacja, Porady, Bezpieczeństwo;
Kilka słów o pliku robots.txt

Robot indeksujący wyszukiwarki to rozbudowane narzędzie służące do przeszukiwania i indeksowania treści umieszczonych w Internecie. Roboty poszukują głównie treści oraz linków, które pozwalają im ocenić tematykę strony, a następnie udostępnić te treści użytkownikom w wynikach wyszukiwania. Proces ten dzieli się na dwa etapy: przeszukiwanie (ang. crawling) i indeksowanie (ang. indexing).

Właściciele witryn mają możliwość ograniczenia działań robotów. Nie jest to fizyczna blokada uniemożliwiająca fizyczne „przeczesywanie” zawartości strony, a raczej informacja (zapisywana w pliku robots.txt), że nie wolno tego robić.

Przeznaczenie pliku robots.txt

Plik robots.txt to plik tekstowy (bez tagów HTML), we wnętrzu którego umieszcza się polecenia regulujące zasady dostępu robotów wyszukiwarek do witryn www i ich podstron. Wykorzystuje on specjalny protokół Robots Exclusion Protocol, przy pomocy komend którego możemy zabronić (ang. disallow) robotom dostępu do wybranych katalogów czy plików w serwisie. Musi być umieszczony w katalogu głównym strony internetowej, dla której reguły zawiera.

Struktura pliku robots.txt

Plik robots.txt składa się z sekcji, z których każda zawiera wiersz z nazwą robota (User-agent) oraz wiersza(e) zawierającego ścieżki, do których danemu robotowi zakazany jest dostęp (Disallow). W przypadku, gdy chcemy udostępnić robotowi adres URL katalogu podrzędnego w zablokowanym katalogu nadrzędnym można użyć trzeciego słowa kluczowego Allow. Poszczególne sekcje są oddzielane pustymi wierszami.

W pliku mogą być również umieszczane komentarze, które muszą być poprzedzone znakiem #, niektóre roboty potrafią zinterpretować również dyrektywę Sitemap informującą o położeniu pliku z mapą strony (sitemap.xml).

Składnia instrukcji i przykłady implementacji

User-agent: <nazwa robota, do którego odnoszą się zasady w kolejnych wierszach sekcji>

Disallow: <adres URL, który chcemy zablokować>

Allow: <adres URL do katalogu podrzędnego w zablokowanym katalogu nadrzędnym>

Sitemap: <pełny adres URL mapy witryny>

# <komentarz>

 

Przykłady:

  • Zabronienie dostępu wszystkim robotom do całej witryny:
User-agent: * #wszystkie roboty
Disallow: /

 

  • Zezwolenie robotom na pełny dostęp do witryny:
User-agent: * 
Disallow:

  • Zabronienie robotowi Google dostępu do wybranych części witryny (pozostałe roboty mają dostęp do tych katalogów):
User-agent: Googlebot #tylko ten robot
Disallow: /tmp/       #zablokuj dostęp do tego katalogu   
Disallow: /private/   #zablokuj dostęp do tego katalogu

 

  • Zabronienie robotowi Google-Image dostepu do obazu zdjecie.jpg
User-agent: Googlebot-Image
Disallow: /pictures/zdjecie.jpg    

 

W pliku robots.txt można umieścić dowolną liczbę sekcji. W każdej z nich wiele wierszy Disallow może odnosić się do wymienionego w sekcji User-agent robota/ów. Przy tworzeniu pliku przydatna jest znajomość nazw robotów poszczególnych wyszukiwarek. Można ją znaleźć na stronie Robots Database.

Plik robots.txt można utworzyć za pomocą dowolnego edytora tekstu (np. notatnika Windows czy Notepad++), a następnie umieścić go w katalogu głównym domeny. Przed umieszczeniem pliku robots.txt na serwerze warto sprawdzić jego poprawność za pomocą testera udostępnianego przez Narzędziach dla webmasterów Google.

Niektórzy pozycjonerzy sugerują blokowanie dostępu do stron robotom mało popularnych wyszukiwarek, gdyż używany przez nich do ściągania stron protokół http generuje ruch na serwerze i może go nadmiernie obciążać.

Należy pamiętać o tym, że nie wszystkie roboty muszą przestrzegać poleceń zawartych w pliku robots.txt. Należy je traktować raczej jako wytyczne niż reguły. W związku z tym w celu zabezpieczenia informacji o charakterze prywatnym zaleca się wykorzystanie innych metod blokowania dostępu do zasobów, na przykład ochrony prywatnych plików hasłem.

 

Ocena: 54321 (5.00/5), bazuje na 1 głosie.

 

Udostępnij ten artykuł innym:

 

Podobne artykuły

 
comments powered by Disqus

Hosting

Rejestracja domen

Tworzymy strony WWW

Firma

Platforma hostingowa o12.pl :: PROT Profesjonalne Technologie Sp. z o.o. 2003-2016