Generator robots.txt

Skonfiguruj reguły dostępu dla botów wyszukiwarek i AI. Dodaj ścieżki do blokowania, sitemap i ustawienia crawl-delay. Skopiuj gotowy plik.

URL mapy strony (sitemap)

Crawl-delay (sekundy)

User-Agent

Allow

Disallow

Wygenerowany robots.txt

User-agent: *
Allow: /
Disallow: /admin
Disallow: /api

Sitemap: https://example.com/sitemap.xml

Czym jest plik robots.txt?

robots.txt to plik tekstowy umieszczany w katalogu głównym strony internetowej, który informuje roboty wyszukiwarek (crawlery), które części witryny mogą indeksować, a których powinny unikać. Działa na zasadzie protokołu wykluczenia robotów (REP).

Podstawowa składnia

Dyrektywa	Znaczenie	Przykład
`User-agent`	Określa robota	`User-agent: Googlebot`
`Disallow`	Blokuje ścieżkę	`Disallow: /admin/`
`Allow`	Zezwala na ścieżkę (nadpisuje Disallow)	`Allow: /admin/public/`
`Sitemap`	Wskazuje mapę witryny	`Sitemap: https://example.pl/sitemap.xml`
`Crawl-delay`	Opóźnienie między żądaniami (sekundy)	`Crawl-delay: 10`
`#`	Komentarz	`# To jest komentarz`

Przykładowa konfiguracja

# Reguły dla wszystkich robotów
User-agent: *
Disallow: /api/
Disallow: /admin/
Disallow: /tmp/
Allow: /api/public/

# Mapa witryny
Sitemap: https://example.pl/sitemap.xml

Blokowanie botów AI

Coraz więcej właścicieli stron blokuje boty AI trenujące modele na treściach:

# Blokowanie botów AI
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

Lista popularnych botów AI

GPTBot – OpenAI (ChatGPT)
CCBot – Common Crawl (dane treningowe)
Google-Extended – Google AI (Gemini)
anthropic-ai – Anthropic (Claude)
Bytespider – ByteDance (TikTok)
FacebookBot – Meta AI

Ważne ograniczenia robots.txt

Nie gwarantuje blokady – to jedynie zalecenie, nie zabezpieczenie techniczne
Nie ukrywa treści – URL-e w Disallow mogą być znalezione z innych źródeł
Nie zastępuje noindex – do usunięcia z indeksu użyj meta tagu noindex
Publiczny plik – każdy może go odczytać (example.pl/robots.txt)
Nie blokuje linków – strony mogą nadal przekazywać PageRank

Testowanie robots.txt

Google Search Console – narzędzie do testowania robots.txt
Bing Webmaster Tools – analogiczne narzędzie Bing
Online walidatory – sprawdzają składnię i konflikty reguł
curl – curl https://example.pl/robots.txt

Najczęstsze błędy

Blokowanie CSS/JS – uniemożliwia renderowanie strony przez Google
Blokowanie obrazów – obrazy nie pojawią się w Google Images
Trailing slash – /admin vs /admin/ mają różne znaczenie
Brak pliku – oznacza „wszystko dozwolone" (brak ograniczeń)
Zbyt restrykcyjne reguły – przypadkowe zablokowanie ważnych sekcji
Mieszanie Allow i Disallow – kolejność ma znaczenie (Google wybiera bardziej szczegółową regułę)

Dobre praktyki

Umieść plik w katalogu głównym: https://domena.pl/robots.txt
Zawsze dodaj dyrektywę Sitemap z pełnym URL
Testuj zmiany przed wdrożeniem
Nie blokuj zasobów potrzebnych do renderowania (CSS, JS, fonty)
Regularnie sprawdzaj, czy reguły są aktualne

Jeśli ten kalkulator był przydatny, sprawdź również: JSON, .htpasswd, CV i więcej kalkulatorów.

Kalkulator zawiera walidację danych wejściowych i działa lokalnie w przeglądarce. Dzięki temu możesz szybko porównać różne scenariusze bez przesyłania danych na serwer.

robots.txtgenerator robotsblokowanie botówseo robotscrawl delaygptbot block

Najczęstsze pytania (FAQ)

Co to jest robots.txt?

robots.txt to plik tekstowy w głównym katalogu strony, który informuje boty wyszukiwarek, które części serwisu mogą indeksować, a których nie.

Czy robots.txt blokuje dostęp?

Nie gwarantuje! robots.txt to tylko sugestia. Szanowane boty (Google, Bing) go przestrzegają, ale złośliwe crawlery mogą ignorować.

Jak zablokować boty AI (ChatGPT, Claude)?

Dodaj: User-agent: GPTBot, Disallow: /. Również: User-agent: ChatGPT-User, User-agent: CCBot, User-agent: Google-Extended z Disallow: /.