Robots.txt – najważniejsze informacje

11 stycznia, 2022 Autor pawel 0

Robots.txt

Treść:

Czym jest robots.txt?

Dlaczego robots.txt jest ważny?

Czy robots.txt jest niezbędny?

Jakie problemy mogą wystąpić z robots.txt?

Jak działa robots.txt?

Porady dotyczące tworzenia robots.txt bez błędów

Co to jest robots.txt?

Robots.txt to plik tekstowy, który właściciele stron internetowych tworzą i zapisują na serwerze. Ma duży wpływ na to w jaki sposób wyszukiwarki postrzegają naszą stronę www.

Robots.txt nie gwarantuje, że wykluczone adresy URL nie będą indeksowane. To dlatego, że boty wyszukiwarek mogą nadal dowiedzieć się, że te strony istnieją poprzez inne strony internetowe, które do nich linkują.

Należy pamiętać, że blokada dostępu w pliku robots.txt nie jest tym samym co usunięcie strony z indeksu wyszukiwarki google. Chcąc usunąć stronę z wyników wyszukiwania trzeba skorzystać z meta tagu „robots” ustawionego na „noindex”

Pamiętaj, że plik robots.txt jest publicznie dostępny. Możesz po prostu dodać /robots.txt do końca adresu URL domeny, aby zobaczyć plik robots.txt.

Dlaczego plik robots.txt jest ważny?

Boty wyszukiwarek mają dyrektywę do indeksowania stron internetowych. Dzięki plikowi robots.txt możesz selektywnie wykluczyć strony, katalogi lub całą witrynę z indeksowania.

Może to być przydatne w wielu różnych sytuacjach. Oto kilka sytuacji, w których można użyć pliku robots.txt:

-Aby zablokować pewne strony lub pliki, które nie powinny być indeksowane / indeksowane (takie jak nieistotne lub podobne strony)

-Aby zatrzymać indeksowanie pewnych części witryny podczas ich aktualizacji

-Aby nakierować wyszukiwarkę na lokalizację swojej sitemapy

-Aby poinformować wyszukiwarki, aby ignorowały pewne pliki na stronie, takie jak wideo, pliki audio, obrazy, PDF, itp. i nie pokazywały się w wynikach wyszukiwania

-Aby upewnić się, że Twój serwer nie jest przeciążony żądaniami.

Używanie robots.txt do zablokowania niepotrzebnego indeksowania jest jednym ze sposobów na zmniejszenie obciążenia serwera.

Czy robots.txt jest niezbędny?

Każda strona powinna mieć plik robots.txt, nawet jeśli jest on pusty. Kiedy boty wyszukiwarek przychodzą do Twojej witryny, pierwszą rzeczą, której szukają jest plik robots.txt.

Jeśli nie istnieje, to boty otrzymują błąd 404 (not found). Chociaż Google twierdzi, że Googlebot może przejść i przeszukać witrynę, nawet jeśli nie ma pliku robots.txt, uważamy, że lepiej jest mieć pierwszy plik, którego bot żąda zamiast produkować błąd 404.

Jakie problemy mogą wystąpić z robots.txt?

Ten prosty mały plik może powodować problemy dla SEO, jeśli nie jesteś ostrożny. Oto kilka sytuacji, na które warto uważać.

1. Zablokowanie całej witryny przez przypadek

To zdarza się częściej niż byś myślał. Programiści mogą użyć robots.txt, aby ukryć nową lub przeprojektowaną sekcję witryny podczas jej tworzenia, ale potem zapomnieć o odblokowaniu jej po uruchomieniu. Jeśli jest to istniejąca strona, ten błąd może spowodować spadek w rankingu wyszukiwania.

2. Wykluczanie stron, które są już zaindeksowane

Blokowanie w robots.txt stron, które są zaindeksowane, powoduje, że utkną one w indeksie Google.

Jeśli wykluczysz strony, które już są w indeksie wyszukiwarki, to tam pozostaną. Aby faktycznie usunąć je z indeksu, powinieneś ustawić tag meta robots „noindex” na samych stronach i pozwolić Google na indeksowanie i przetwarzanie tego. Gdy strony zostaną usunięte z indeksu, zablokuj je w robots.txt, aby uniemożliwić Google żądanie ich w przyszłości.

Jak działa robots.txt?

Aby utworzyć plik robots.txt, możesz użyć prostej aplikacji, takiej jak Notatnik lub TextEdit. Zapisz go pod nazwą robots.txt i prześlij do głównego katalogu swojej strony jako www.domain.com/robots.txt — tam będą go szukać boty.

Prosty plik robots.txt wyglądałby tak:

User-agent: *

Disallow: /directory-name/

Google dobrze wyjaśnia, co oznaczają poszczególne linie w grupie w pliku robots.txt w swoim pliku pomocy dotyczącym tworzenia pliku robots.txt:

Każda grupa składa się z wielu reguł lub dyrektyw (instrukcji), po jednej dyrektywie na linię.

Grupa podaje następujące informacje:

Kogo dotyczy dana grupa

Do jakich katalogów lub plików może mieć dostęp

Do jakich katalogów lub plików nie ma dostępu

Robots.txt służy do informowania botów gdzie mogą i nie mogą wchodzić. Trzeba jednak pamiętać, ze złośliwe roboty to ignorują. W robots.txt można zablokować złośliwe spamboty, zjadające transfer i obciążające serwer, ale może okazać się to nieskuteczne. Bardziej skuteczną metodą jest zablokowanie ich na poziomie serwera lub w pliku .htaccess.