Generator robots.txt

Skonfiguruj reguły dostępu dla botów wyszukiwarek i AI. Dodaj ścieżki do blokowania, sitemap i ustawienia crawl-delay. Skopiuj gotowy plik.

Czym jest plik robots.txt?

robots.txt to plik tekstowy umieszczany w katalogu głównym strony internetowej, który informuje roboty wyszukiwarek (crawlery), które części witryny mogą indeksować, a których powinny unikać. Działa na zasadzie protokołu wykluczenia robotów (REP).

Podstawowa składnia

DyrektywaZnaczeniePrzykład
User-agentOkreśla robotaUser-agent: Googlebot
DisallowBlokuje ścieżkęDisallow: /admin/
AllowZezwala na ścieżkę (nadpisuje Disallow)Allow: /admin/public/
SitemapWskazuje mapę witrynySitemap: https://example.pl/sitemap.xml
Crawl-delayOpóźnienie między żądaniami (sekundy)Crawl-delay: 10
#Komentarz# To jest komentarz

Przykładowa konfiguracja

# Reguły dla wszystkich robotów
User-agent: *
Disallow: /api/
Disallow: /admin/
Disallow: /tmp/
Allow: /api/public/

# Mapa witryny
Sitemap: https://example.pl/sitemap.xml

Blokowanie botów AI

Coraz więcej właścicieli stron blokuje boty AI trenujące modele na treściach:

# Blokowanie botów AI
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

Lista popularnych botów AI

  • GPTBot – OpenAI (ChatGPT)
  • CCBot – Common Crawl (dane treningowe)
  • Google-Extended – Google AI (Gemini)
  • anthropic-ai – Anthropic (Claude)
  • Bytespider – ByteDance (TikTok)
  • FacebookBot – Meta AI

Ważne ograniczenia robots.txt

  • Nie gwarantuje blokady – to jedynie zalecenie, nie zabezpieczenie techniczne
  • Nie ukrywa treści – URL-e w Disallow mogą być znalezione z innych źródeł
  • Nie zastępuje noindex – do usunięcia z indeksu użyj meta tagu noindex
  • Publiczny plik – każdy może go odczytać (example.pl/robots.txt)
  • Nie blokuje linków – strony mogą nadal przekazywać PageRank

Testowanie robots.txt

  • Google Search Console – narzędzie do testowania robots.txt
  • Bing Webmaster Tools – analogiczne narzędzie Bing
  • Online walidatory – sprawdzają składnię i konflikty reguł
  • curlcurl https://example.pl/robots.txt

Najczęstsze błędy

  1. Blokowanie CSS/JS – uniemożliwia renderowanie strony przez Google
  2. Blokowanie obrazów – obrazy nie pojawią się w Google Images
  3. Trailing slash/admin vs /admin/ mają różne znaczenie
  4. Brak pliku – oznacza „wszystko dozwolone" (brak ograniczeń)
  5. Zbyt restrykcyjne reguły – przypadkowe zablokowanie ważnych sekcji
  6. Mieszanie Allow i Disallow – kolejność ma znaczenie (Google wybiera bardziej szczegółową regułę)

Dobre praktyki

  • Umieść plik w katalogu głównym: https://domena.pl/robots.txt
  • Zawsze dodaj dyrektywę Sitemap z pełnym URL
  • Testuj zmiany przed wdrożeniem
  • Nie blokuj zasobów potrzebnych do renderowania (CSS, JS, fonty)
  • Regularnie sprawdzaj, czy reguły są aktualne

Jeśli ten kalkulator był przydatny, sprawdź również: JSON, .htpasswd, CV i więcej kalkulatorów.

Kalkulator zawiera walidację danych wejściowych i działa lokalnie w przeglądarce. Dzięki temu możesz szybko porównać różne scenariusze bez przesyłania danych na serwer.

robots.txtgenerator robotsblokowanie botówseo robotscrawl delaygptbot block

Najczęstsze pytania (FAQ)

Co to jest robots.txt?

robots.txt to plik tekstowy w głównym katalogu strony, który informuje boty wyszukiwarek, które części serwisu mogą indeksować, a których nie.

Czy robots.txt blokuje dostęp?

Nie gwarantuje! robots.txt to tylko sugestia. Szanowane boty (Google, Bing) go przestrzegają, ale złośliwe crawlery mogą ignorować.

Jak zablokować boty AI (ChatGPT, Claude)?

Dodaj: User-agent: GPTBot, Disallow: /. Również: User-agent: ChatGPT-User, User-agent: CCBot, User-agent: Google-Extended z Disallow: /.